计划Amazon'的工具/方法;s弹性MapReduce作业

计划Amazon'的工具/方法;s弹性MapReduce作业,mapreduce,hadoop-streaming,elastic-map-reduce,emr,Mapreduce,Hadoop Streaming,Elastic Map Reduce,Emr,我使用EMR创建新实例并处理作业,然后关闭实例 我的要求是定期安排工作。一个简单的实现方法是使用quartz触发EMR作业。但从长远来看,我对使用现成的mapreduce调度解决方案感兴趣。我的问题是,EMR或AWS-SDK是否提供了任何开箱即用的调度功能,我可以将其用于我的需求?我可以看到在自动缩放中有调度,但我想改为调度EMR作业流。就是这样做的 Oozie是一个工作流调度系统,用于管理ApacheHadoop作业 Oozie工作流作业是操作的有向无环图(DAG) Oozie Coordin

我使用EMR创建新实例并处理作业,然后关闭实例

我的要求是定期安排工作。一个简单的实现方法是使用quartz触发EMR作业。但从长远来看,我对使用现成的mapreduce调度解决方案感兴趣。我的问题是,EMR或AWS-SDK是否提供了任何开箱即用的调度功能,我可以将其用于我的需求?我可以看到在自动缩放中有调度,但我想改为调度EMR作业流。

就是这样做的

Oozie是一个工作流调度系统,用于管理ApacheHadoop作业

Oozie工作流作业是操作的有向无环图(DAG)

Oozie Coordinator作业是由 时间(频率)和数据可用性

Oozie与Hadoop堆栈的其余部分集成,支持 几种类型的Hadoop作业(如Java map reduce、, 流式map reduce、Pig、Hive、Sqoop和Distcp)以及系统 特定作业(如Java程序和shell脚本)

Oozie是一个可扩展、可靠和可扩展的系统

下面是一个用于配置apache oozie的Elastic Map Reduce引导操作的简单示例:


但是要让你知道oozie有点复杂,如果并且只有当你有很多工作要安排/监控/维护,那么只有你才能选择
oozie
,或者如果你说只有2到3个工作要定期安排,那么就创建一堆
cron
工作


您也可以进行调查和探索。

非常感谢您的快速回复。我一定会去奥齐的。你有没有任何例子,我可以找出如何在EMR上使用它,因为关于oozie的原始文档不会导致它。是的,我已经更新了答案,包括一个链接,根据你的需要提供示例。非常感谢Amar。但是要让你知道oozie有点复杂,如果并且只有当你有很多工作要做的时候计划/监控/维护然后只有你才能去oozie。更新我的答案以包含该信息。