部署和管理Python SDK Apache Beam pipeline for Google cloud数据流的执行的便捷方法是什么

部署和管理Python SDK Apache Beam pipeline for Google cloud数据流的执行的便捷方法是什么,python,google-cloud-platform,google-cloud-dataflow,apache-beam,Python,Google Cloud Platform,Google Cloud Dataflow,Apache Beam,一旦使用Python SDK和DataflowRunner在Google的云数据流中设计并测试了Apache Beam管道,那么在Google云中使用它并管理其执行的方便方法是什么 部署和管理用于Google云数据流的Python SDK Apache Beam管道执行的便捷方法是什么 它应该以某种方式包装吗?上传到谷歌存储?创建数据流模板?一个人如何在开发人员执行之外安排其执行?如何从其开发环境执行它 更新 最好不使用第三方工具,或者不需要谷歌云和数据流以外的其他管理工具/基础设施。我认为最方

一旦使用Python SDK和
DataflowRunner
在Google的云数据流中设计并测试了Apache Beam管道,那么在Google云中使用它并管理其执行的方便方法是什么

部署和管理用于Google云数据流的Python SDK Apache Beam管道执行的便捷方法是什么

它应该以某种方式包装吗?上传到谷歌存储?创建数据流模板?一个人如何在开发人员执行之外安排其执行?如何从其开发环境执行它

更新


最好不使用第三方工具,或者不需要谷歌云和数据流以外的其他管理工具/基础设施。

我认为最方便的方法是使用。这允许您编写、安排和监视工作流。可以启动您设计的数据管道。气流可以在小型虚拟机上启动,也可以使用谷歌云平台上的工具


有更多选项可以自动化您的工作流,例如、、甚至运行简单的cronjob(我不鼓励您使用)。您可能也想看看这些选项,但气流可能适合您的需要。

直观地说,您可能希望数据流文档的如何指南下的“”部分将涵盖这一点。但是您可以在下面的“”部分找到关于这一点的解释

根据该节:

云数据流模板引入了一种不同于传统作业执行工作流的新的开发和执行工作流。模板工作流将开发步骤与暂存和执行步骤分开

简单地说,您不需要从Google云部署和执行数据流管道。但是,如果您需要与云的非技术成员共享管道的执行,或者只想触发管道而不依赖于开发环境或第三方工具,那么您需要的就是数据流模板

一旦开发和测试了管道,就可以从中创建数据流作业模板

请注意:

要使用Cloud Dataflow SDK 2.x for Python创建模板,必须具有2.0.0或更高版本

您需要使用
DataflowRunner
和管道选项执行管道,这些选项将在谷歌云存储上生成模板,而不是运行模板


有关更多详细信息,请参阅文档部分,要从模板运行,请参阅部分。

我更新了一个问题,提到我们强烈希望避免使用第三方工具。我个人喜欢Airflow解决方案,但Cloud Composer是一种将数据流连接到Google云之外的工具(对于我们的需求来说,这太过分了),我们公司对定制基础设施的创建和管理非常敏感,只要它可以在Google云中完成,而不需要额外的依赖关系。如下所述,那你可能想看看。