用于多个MapReduce步骤的Python工作流引擎

用于多个MapReduce步骤的Python工作流引擎,python,mapreduce,workflow,celery,pyramid,Python,Mapreduce,Workflow,Celery,Pyramid,这么多人 我需要通过不同的步骤处理一组(庞大的)数据;每个步骤都可能涉及mapReduce(使用)、通用分布式处理(使用)或服务器上的一些简单处理。我正在搜索可以帮助管理此类工作流的工作流引擎/库/框架 我研究了许多选项,似乎是最灵活的,但它似乎不支持状态转换操作,而且是单线程的(因此我不确定如何处理并行网关) 请就管理此类工作流程/作业的方法/工具提供建议。如果有一个监控工具附带的框架(最好是基于web的,或者可以与之集成),那么就更好了 提前感谢对批处理数据处理任务进行流水线处理,我们使用了

这么多人

我需要通过不同的步骤处理一组(庞大的)数据;每个步骤都可能涉及mapReduce(使用)、通用分布式处理(使用)或服务器上的一些简单处理。我正在搜索可以帮助管理此类工作流的工作流引擎/库/框架

我研究了许多选项,似乎是最灵活的,但它似乎不支持状态转换操作,而且是单线程的(因此我不确定如何处理并行网关)

请就管理此类工作流程/作业的方法/工具提供建议。如果有一个监控工具附带的框架(最好是基于web的,或者可以与之集成),那么就更好了


提前感谢

对批处理数据处理任务进行流水线处理,我们使用了一种基于great的解决方案。它是一个中央调度器调度和监控工具,是一个基于的web服务器。

这可能对您不起作用,但您可以在appengine上使用appengine管道执行此操作。这取决于调度任务,大致相当于芹菜。所以,至少有一个来源可以激发出一个手推手的解决方案。谢谢你,汤姆,我会调查的