Google cloud platform 运行Dataproc工作流
我希望使用Dataproc工作流来运行连续的Spark作业 基于此,需要: 创建工作流 按作业名称将作业添加到工作流中 启动工作流Google cloud platform 运行Dataproc工作流,google-cloud-platform,google-cloud-dataproc,google-workflows,Google Cloud Platform,Google Cloud Dataproc,Google Workflows,我希望使用Dataproc工作流来运行连续的Spark作业 基于此,需要: 创建工作流 按作业名称将作业添加到工作流中 启动工作流 为了向工作流中添加作业,您需要知道该作业的ID。因此你需要提交这份工作。但是,一旦提交了所有作业,如何暂停它们,请添加到工作流中,然后与这些作业一起运行工作流?除非指定一个或多个作业依赖项,否则所有作业都会同时运行。您将是为每个作业提供步骤id的人 示例: 将Hadoop作业foo添加到我的工作流模板中 gcloud dataproc workflow-templa
为了向工作流中添加作业,您需要知道该作业的ID。因此你需要提交这份工作。但是,一旦提交了所有作业,如何暂停它们,请添加到工作流中,然后与这些作业一起运行工作流?除非指定一个或多个作业依赖项,否则所有作业都会同时运行。您将是为每个作业提供步骤id的人 示例: 将Hadoop作业foo添加到我的工作流模板中
gcloud dataproc workflow-templates add-job hadoop \
--region=[region] \
--step-id=foo \
--workflow-template=my-workflow \
-- [space separated job args]
将作业栏添加到“我的工作流”模板,该模板将在工作流作业foo成功完成后运行
> gcloud dataproc workflow-templates add-job [job-type] \
> --region=[region] \
> --step-id=bar \
> --start-after=foo \
> --workflow-template=my-workflow \
> -- [space separated job args]
请注意参数-start after,它指示指定的作业将在该工作流作业之后运行。通过这种方式,您可以按顺序运行Spark作业。除非指定一个或多个作业依赖项,否则所有作业都会同时运行。您将是为每个作业提供步骤id的人 示例: 将Hadoop作业foo添加到我的工作流模板中
gcloud dataproc workflow-templates add-job hadoop \
--region=[region] \
--step-id=foo \
--workflow-template=my-workflow \
-- [space separated job args]
将作业栏添加到“我的工作流”模板,该模板将在工作流作业foo成功完成后运行
> gcloud dataproc workflow-templates add-job [job-type] \
> --region=[region] \
> --step-id=bar \
> --start-after=foo \
> --workflow-template=my-workflow \
> -- [space separated job args]
请注意参数-start after,它指示指定的作业将在该工作流作业之后运行。通过这种方式,可以按顺序运行Spark作业