Google cloud platform 自定义Dataprod工作流
我使用Dataproc的工作流。我想做三件事:Google cloud platform 自定义Dataprod工作流,google-cloud-platform,workflow,google-cloud-dataproc,Google Cloud Platform,Workflow,Google Cloud Dataproc,我使用Dataproc的工作流。我想做三件事: 实例化单个工作流步骤。有时一个工作流崩溃,我不想再次运行整个工作流,只在给定步骤的a/处运行 参数是有限的。有时我想在工作流中定义URL模板,参数只是其中的一部分 jobs: - sparkJob: args: - --myarg - gs://base-url/the-param-I-want-to-parametrize.csv 从工作流中,我想禁用调度程序中的任务,并调用云函数,这可能吗 有没有办法实现这些目标?谢谢。谢谢你伸出援手。
- 实例化单个工作流步骤。有时一个工作流崩溃,我不想再次运行整个工作流,只在给定步骤的a/处运行
- 参数是有限的。有时我想在工作流中定义URL模板,参数只是其中的一部分
jobs: - sparkJob: args: - --myarg - gs://base-url/the-param-I-want-to-parametrize.csv
- 从工作流中,我想禁用调度程序中的任务,并调用云函数,这可能吗
有没有办法实现这些目标?谢谢。谢谢你伸出援手。在有明确的需求之前,我们故意没有实现一些特性 我建议将#1和#2的特性请求提交到[1]的用例中 支持作业重试(通过可重新启动的作业)或在工作流中添加诸如“失败后继续”之类的策略似乎是合理的 我不确定您在#3(哪个计划程序)中要求什么?云功能通过HTTP请求、GCS中的文件或PubSub通知触发。您应该能够将pyspark与客户端库一起使用,通过以下路径之一触发
[1] 您最好使用更通用的编排解决方案-(托管)而不是Dataproc工作流。它具有您需要和支持的所有功能。Cloud composer看起来很不错,但这是一个计费解决方案。