Apache spark dataproc/gcp中多个spark作业的顺序执行_Apache Spark_Google Cloud Platform_Google Cloud Dataproc

Apache spark dataproc/gcp中多个spark作业的顺序执行

apache-spark google-cloud-platform

Apache spark dataproc/gcp中多个spark作业的顺序执行,apache-spark,google-cloud-platform,google-cloud-dataproc,Apache Spark,Google Cloud Platform,Google Cloud Dataproc,我想在gcp中按顺序启动多个spark作业，如 gcloud dataproc jobs submit spark file1.py gcloud dataproc jobs submit spark file2.py ... 这样，其中一个作业的执行就在前一个作业的执行完成时开始有什么办法吗？可以使用此工作流将作为工作流的一部分创建和删除群集您可以按照以下步骤创建工作流：创建您的工作流模板 export REGION=us-central1 gcloud dataproc工作流模板创

我想在gcp中按顺序启动多个spark作业，如

gcloud dataproc jobs submit spark file1.py
gcloud dataproc jobs submit spark file2.py
...

这样，其中一个作业的执行就在前一个作业的执行完成时开始

有什么办法吗？

可以使用

此工作流将作为工作流的一部分创建和删除群集

您可以按照以下步骤创建工作流：

创建您的工作流模板

export REGION=us-central1
gcloud dataproc工作流模板创建工作流id\
--地区$地区

设置将用于作业的Dataproc群集类型

gcloud dataproc工作流模板设置托管群集工作流id\
--地区$region\
--主机器类型机器类型\
--工人机器类型机器类型\
--工人人数\
--群集名称群集名称

将作业作为步骤添加到工作流中

第二个作业需要参数

--start after

，以确保它在第一个作业之后运行

gcloud dataproc工作流模板添加作业pyspark gs://bucket name/file2.py\
--地区$region\
--步骤id作业2\
--在作业1之后开始\
--工作流模板工作流id

运行工作流

gcloud dataproc工作流模板实例化模板id\
--地区$region\

非常感谢您的回答！

gcloud dataproc workflow-templates add-job pyspark gs://bucket-name/file1.py \
    --region $REGION \ 
    --step-id job1 \ 
    --workflow-template workflow-id