Apache spark dataproc/gcp中多个spark作业的顺序执行
我想在gcp中按顺序启动多个spark作业,如Apache spark dataproc/gcp中多个spark作业的顺序执行,apache-spark,google-cloud-platform,google-cloud-dataproc,Apache Spark,Google Cloud Platform,Google Cloud Dataproc,我想在gcp中按顺序启动多个spark作业,如 gcloud dataproc jobs submit spark file1.py gcloud dataproc jobs submit spark file2.py ... 这样,其中一个作业的执行就在前一个作业的执行完成时开始 有什么办法吗?可以使用 此工作流将作为工作流的一部分创建和删除群集 您可以按照以下步骤创建工作流: 创建您的工作流模板 export REGION=us-central1 gcloud dataproc工作流模板创
gcloud dataproc jobs submit spark file1.py
gcloud dataproc jobs submit spark file2.py
...
这样,其中一个作业的执行就在前一个作业的执行完成时开始
有什么办法吗?可以使用
此工作流将作为工作流的一部分创建和删除群集
您可以按照以下步骤创建工作流:
export REGION=us-central1
gcloud dataproc工作流模板创建工作流id\
--地区$地区
gcloud dataproc工作流模板设置托管群集工作流id\
--地区$region\
--主机器类型机器类型\
--工人机器类型机器类型\
--工人人数\
--群集名称群集名称
--start after
,以确保它在第一个作业之后运行
gcloud dataproc工作流模板添加作业pyspark gs://bucket name/file2.py\
--地区$region\
--步骤id作业2\
--在作业1之后开始\
--工作流模板工作流id
gcloud dataproc工作流模板实例化模板id\
--地区$region\
非常感谢您的回答!
gcloud dataproc workflow-templates add-job pyspark gs://bucket-name/file1.py \
--region $REGION \
--step-id job1 \
--workflow-template workflow-id