Hadoop Google数据流的工作流编排

Hadoop Google数据流的工作流编排,hadoop,workflow,google-cloud-platform,google-cloud-dataflow,azkaban,Hadoop,Workflow,Google Cloud Platform,Google Cloud Dataflow,Azkaban,我们正在使用GoogleDataflow进行批量数据处理,并寻找一些工作流编排工具的选项,类似于Azkaban为Hadoop所做的工作 我们正在寻找的关键是 配置工作流 调度工作流 监视和警报失败的工作流 重新运行失败作业的能力 我们已经评估了Pentaho,但是这些功能在他们的企业版中是可用的,这是昂贵的。 我们目前正在评估Azkaban,因为它支持javaprocess作业类型。但是Azkaban主要是为Hadoop工作而创建的,因此它与Hadoop基础设施的集成比普通JavaProce

我们正在使用GoogleDataflow进行批量数据处理,并寻找一些工作流编排工具的选项,类似于Azkaban为Hadoop所做的工作

我们正在寻找的关键是

  • 配置工作流
  • 调度工作流
  • 监视和警报失败的工作流
  • 重新运行失败作业的能力
我们已经评估了Pentaho,但是这些功能在他们的企业版中是可用的,这是昂贵的。 我们目前正在评估Azkaban,因为它支持javaprocess作业类型。但是Azkaban主要是为Hadoop工作而创建的,因此它与Hadoop基础设施的集成比普通JavaProcess更深入


感谢您对开源或非常低成本解决方案的建议。

听起来Apache Airflow()应该可以满足您的需求,现在它有了一个数据流操作符()。

来协调我们可以使用的Google数据流,它是构建在托管工作流编排服务之上的。它提供了更大的灵活性,利用这一点,我们可以协调跨本地和公共云的大多数谷歌服务和工作流

谢谢William,我们已经开始评估气流,看看它是否有效。@user73827评估进行得如何?对气流有何评论?我很感兴趣。我正在努力用Cloud Composer协调数据流作业。别这么做。我尝试了10种不同的方法,但都不起作用