定期运行hadoop作业（最佳实践）_Hadoop_Cloud

定期运行hadoop作业（最佳实践）

hadoop cloud

定期运行hadoop作业（最佳实践）,hadoop,cloud,Hadoop,Cloud,能够随时将URL上传到数据库和应用程序的客户应尽快处理URL。所以我需要定期运行hadoop作业，或者从其他应用程序自动运行hadoop作业（任何脚本都可以标识添加的新链接，为hadoop作业生成数据并运行作业）。对于PHP或Python脚本，我可以设置cronjob，但对于定期运行的hadoop作业，最佳实践是什么（为hadoop准备数据、上载数据、运行hadoop作业并将数据移回数据库？如果您希望尽快处理URL，您将一次处理每个URL。我的建议是每天等待一定数量的链接（或MB的链接，例如10

能够随时将URL上传到数据库和应用程序的客户应尽快处理URL。所以我需要定期运行hadoop作业，或者从其他应用程序自动运行hadoop作业（任何脚本都可以标识添加的新链接，为hadoop作业生成数据并运行作业）。对于PHP或Python脚本，我可以设置cronjob，但对于定期运行的hadoop作业，最佳实践是什么（为hadoop准备数据、上载数据、运行hadoop作业并将数据移回数据库？

如果您希望尽快处理URL，您将一次处理每个URL。我的建议是每天等待一定数量的链接（或MB的链接，例如10分钟）。

并对它们进行批处理（我每天都进行处理，但这项工作只需要几个小时）

看看Oozie，一个来自Y！的新工作流系统，它可以基于不同的触发器运行作业。Alejandro在这里提出了一个很好的溢出：

定义什么是“尽快”可以接受的—一小时？一天？半秒？MapReduce有很大的延迟，如果是后者，你可能需要找到另一个解决方案。