Google cloud platform 自定义Dataprod工作流

Google cloud platform 自定义Dataprod工作流,google-cloud-platform,workflow,google-cloud-dataproc,Google Cloud Platform,Workflow,Google Cloud Dataproc,我使用Dataproc的工作流。我想做三件事: 实例化单个工作流步骤。有时一个工作流崩溃,我不想再次运行整个工作流,只在给定步骤的a/处运行 参数是有限的。有时我想在工作流中定义URL模板,参数只是其中的一部分 jobs: - sparkJob: args: - --myarg - gs://base-url/the-param-I-want-to-parametrize.csv 从工作流中,我想禁用调度程序中的任务,并调用云函数,这可能吗 有没有办法实现这些目标?谢谢。谢谢你伸出援手。

我使用Dataproc的工作流。我想做三件事:

  • 实例化单个工作流步骤。有时一个工作流崩溃,我不想再次运行整个工作流,只在给定步骤的a/处运行

  • 参数是有限的。有时我想在工作流中定义URL模板,参数只是其中的一部分

    jobs:
    - sparkJob:
    args:
    - --myarg
    - gs://base-url/the-param-I-want-to-parametrize.csv
    
  • 从工作流中,我想禁用调度程序中的任务,并调用云函数,这可能吗


有没有办法实现这些目标?谢谢。

谢谢你伸出援手。在有明确的需求之前,我们故意没有实现一些特性

我建议将#1和#2的特性请求提交到[1]的用例中

支持作业重试(通过可重新启动的作业)或在工作流中添加诸如“失败后继续”之类的策略似乎是合理的

我不确定您在#3(哪个计划程序)中要求什么?云功能通过HTTP请求、GCS中的文件或PubSub通知触发。您应该能够将pyspark与客户端库一起使用,通过以下路径之一触发


[1]

您最好使用更通用的编排解决方案-(托管)而不是Dataproc工作流。它具有您需要和支持的所有功能。

Cloud composer看起来很不错,但这是一个计费解决方案。