Google cloud platform 运行Dataproc工作流

Google cloud platform 运行Dataproc工作流,google-cloud-platform,google-cloud-dataproc,google-workflows,Google Cloud Platform,Google Cloud Dataproc,Google Workflows,我希望使用Dataproc工作流来运行连续的Spark作业 基于此,需要: 创建工作流 按作业名称将作业添加到工作流中 启动工作流 为了向工作流中添加作业,您需要知道该作业的ID。因此你需要提交这份工作。但是,一旦提交了所有作业,如何暂停它们,请添加到工作流中,然后与这些作业一起运行工作流?除非指定一个或多个作业依赖项,否则所有作业都会同时运行。您将是为每个作业提供步骤id的人 示例: 将Hadoop作业foo添加到我的工作流模板中 gcloud dataproc workflow-templa

我希望使用Dataproc工作流来运行连续的Spark作业

基于此,需要:

创建工作流 按作业名称将作业添加到工作流中 启动工作流
为了向工作流中添加作业,您需要知道该作业的ID。因此你需要提交这份工作。但是,一旦提交了所有作业,如何暂停它们,请添加到工作流中,然后与这些作业一起运行工作流?

除非指定一个或多个作业依赖项,否则所有作业都会同时运行。您将是为每个作业提供步骤id的人

示例:

将Hadoop作业foo添加到我的工作流模板中

gcloud dataproc workflow-templates add-job hadoop \
    --region=[region] \
    --step-id=foo \
    --workflow-template=my-workflow \
    -- [space separated job args]
将作业栏添加到“我的工作流”模板,该模板将在工作流作业foo成功完成后运行

> gcloud dataproc workflow-templates add-job [job-type] \
>     --region=[region] \
>     --step-id=bar \
>     --start-after=foo \
>     --workflow-template=my-workflow \
>     -- [space separated job args]

请注意参数-start after,它指示指定的作业将在该工作流作业之后运行。通过这种方式,您可以按顺序运行Spark作业。

除非指定一个或多个作业依赖项,否则所有作业都会同时运行。您将是为每个作业提供步骤id的人

示例:

将Hadoop作业foo添加到我的工作流模板中

gcloud dataproc workflow-templates add-job hadoop \
    --region=[region] \
    --step-id=foo \
    --workflow-template=my-workflow \
    -- [space separated job args]
将作业栏添加到“我的工作流”模板,该模板将在工作流作业foo成功完成后运行

> gcloud dataproc workflow-templates add-job [job-type] \
>     --region=[region] \
>     --step-id=bar \
>     --start-after=foo \
>     --workflow-template=my-workflow \
>     -- [space separated job args]
请注意参数-start after,它指示指定的作业将在该工作流作业之后运行。通过这种方式,可以按顺序运行Spark作业