Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/google-cloud-platform/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark dataproc/gcp中多个spark作业的顺序执行_Apache Spark_Google Cloud Platform_Google Cloud Dataproc - Fatal编程技术网

Apache spark dataproc/gcp中多个spark作业的顺序执行

Apache spark dataproc/gcp中多个spark作业的顺序执行,apache-spark,google-cloud-platform,google-cloud-dataproc,Apache Spark,Google Cloud Platform,Google Cloud Dataproc,我想在gcp中按顺序启动多个spark作业,如 gcloud dataproc jobs submit spark file1.py gcloud dataproc jobs submit spark file2.py ... 这样,其中一个作业的执行就在前一个作业的执行完成时开始 有什么办法吗?可以使用 此工作流将作为工作流的一部分创建和删除群集 您可以按照以下步骤创建工作流: 创建您的工作流模板 export REGION=us-central1 gcloud dataproc工作流模板创

我想在gcp中按顺序启动多个spark作业,如

gcloud dataproc jobs submit spark file1.py
gcloud dataproc jobs submit spark file2.py
...
这样,其中一个作业的执行就在前一个作业的执行完成时开始

有什么办法吗?

可以使用

此工作流将作为工作流的一部分创建和删除群集

您可以按照以下步骤创建工作流:

  • 创建您的工作流模板
  • export REGION=us-central1
    gcloud dataproc工作流模板创建工作流id\
    --地区$地区
    
  • 设置将用于作业的Dataproc群集类型
  • gcloud dataproc工作流模板设置托管群集工作流id\
    --地区$region\
    --主机器类型机器类型\
    --工人机器类型机器类型\
    --工人人数\
    --群集名称群集名称
    
  • 将作业作为步骤添加到工作流中
  • 第二个作业需要参数
    --start after
    ,以确保它在第一个作业之后运行

    gcloud dataproc工作流模板添加作业pyspark gs://bucket name/file2.py\
    --地区$region\
    --步骤id作业2\
    --在作业1之后开始\
    --工作流模板工作流id
    
  • 运行工作流
  • gcloud dataproc工作流模板实例化模板id\
    --地区$region\
    
    非常感谢您的回答!
    gcloud dataproc workflow-templates add-job pyspark gs://bucket-name/file1.py \
        --region $REGION \ 
        --step-id job1 \ 
        --workflow-template workflow-id