定期运行hadoop作业(最佳实践)

定期运行hadoop作业(最佳实践),hadoop,cloud,Hadoop,Cloud,能够随时将URL上传到数据库和应用程序的客户应尽快处理URL。所以我需要定期运行hadoop作业,或者从其他应用程序自动运行hadoop作业(任何脚本都可以标识添加的新链接,为hadoop作业生成数据并运行作业)。对于PHP或Python脚本,我可以设置cronjob,但对于定期运行的hadoop作业,最佳实践是什么(为hadoop准备数据、上载数据、运行hadoop作业并将数据移回数据库?如果您希望尽快处理URL,您将一次处理每个URL。我的建议是每天等待一定数量的链接(或MB的链接,例如10

能够随时将URL上传到数据库和应用程序的客户应尽快处理URL。所以我需要定期运行hadoop作业,或者从其他应用程序自动运行hadoop作业(任何脚本都可以标识添加的新链接,为hadoop作业生成数据并运行作业)。对于PHP或Python脚本,我可以设置cronjob,但对于定期运行的hadoop作业,最佳实践是什么(为hadoop准备数据、上载数据、运行hadoop作业并将数据移回数据库?

如果您希望尽快处理URL,您将一次处理每个URL。我的建议是每天等待一定数量的链接(或MB的链接,例如10分钟)。

并对它们进行批处理(我每天都进行处理,但这项工作只需要几个小时)

看看Oozie,一个来自Y!的新工作流系统,它可以基于不同的触发器运行作业。Alejandro在这里提出了一个很好的溢出:

定义什么是“尽快”可以接受的—一小时?一天?半秒?MapReduce有很大的延迟,如果是后者,你可能需要找到另一个解决方案。