1. 首页
  2. 大数据
  3. Oozie教程

【Oozie教程】(一)Oozie概述(优势、应用场景、架构)

概念

Oozie 是一个用来管理 Hadoop 任务的工作流调度系统
设想:假如我需要在凌晨两点执行某个作业,假如我需要每隔一小时执行某个作业,假如我需要依次执行Sqoop,MR,HIVE作业,我能用人工方式吗?显然不行,当然也可以用Crontab — Linux自带的定时任务指令,可是我想有界面监控怎么办,Crontab 是无法实现的,那么Oozie就派上用场了,在实际工作中,遇到需要进行一连串的作业的时候很实用,用Oozie把他们串在一个工作流里面就可以自动执行了。

适用场景

  • Hadoop需要按顺序进行一系列任务
  • 需要并行处理的任务
  • 需要定时、周期触发的任务
  • 可视化作业流运行过程
  • 运行结果或异常的通报

架构

网上关于Oozie的架构图很多,有些蛮复杂的,但我觉得Oozie是作为一个辅助工具来使用,不是一定要掌握那么深入,我觉得只要搞清楚这三个玩意:Bundle\Coordinator\Workflow 就Ok了。
Workflow
就是一系列Action(Hadoop作业),组成DAG有向无环图,比如hive–>mapreduce–>email
Coordinator
Workflow有个大缺点:没有定时和条件触发功能,Coordinator可以完成这个需求。
Coordinator将多个工作流Job组织起来,称为Coordinator Job,并指定触发时间和频率,还可以配置数据集、并发数等,类似于在工作流外部增加了一个协调器来管理这些工作流的工作流Job的运行。
Bundle
Bundle将多个Coordinator管理起来,这样我们只需要一个Bundle提交即可。
【Oozie教程】(一)Oozie概述(优势、应用场景、架构)

BDStar原创文章。发布者:Liuyanling,转载请注明出处:http://bigdata-star.com/archives/1297

发表评论

登录后才能评论

联系我们

562373081

在线咨询:点击这里给我发消息

邮件:562373081@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

QR code