AWS EMR,使用terraform提交python pyspark脚本作为步骤

AWS EMR,使用terraform提交python pyspark脚本作为步骤,pyspark,terraform,amazon-emr,Pyspark,Terraform,Amazon Emr,我已经成功地使用terraform创建了一个EMR集群,根据terraform文档,它指定了如何将步骤作为jar提交给EMR 其中缺少作为步骤添加pyspark脚本的as文档。 有没有人有使用terraform将pyspark脚本添加为EMR步骤的经验?一种常见的方法是从S3复制脚本,然后使用命令运行程序.jar执行脚本。(我不知道这是否理想…) 一种常见的方法是从S3复制脚本,并使用command runner.jar执行脚本。(我不知道这是否理想…) 我得到的错误类似于属性“step”的不

我已经成功地使用terraform创建了一个EMR集群,根据terraform文档,它指定了如何将步骤作为jar提交给EMR

其中缺少作为步骤添加pyspark脚本的as文档。
有没有人有使用terraform将pyspark脚本添加为EMR步骤的经验?

一种常见的方法是从S3复制脚本,然后使用
命令运行程序.jar
执行脚本。(我不知道这是否理想…)


一种常见的方法是从S3复制脚本,并使用
command runner.jar
执行脚本。(我不知道这是否理想…)


我得到的错误类似于属性“step”的不适当值:元素0:属性“hadoop\u jar\u step”:元素0:属性“main\u class”和“properties”是必需的。我得到的错误类似于属性“step”的不适当值:元素0:属性“hadoop\u jar\u step”:元素0:属性“main\u class”和“properties”是必需的。
step {
    action_on_failure = "TERMINATE_CLUSTER"
    name              = "Setup Hadoop Debugging"

    hadoop_jar_step {
      jar  = "command-runner.jar"
      args = ["state-pusher-script"]
    }
  }
  step = [
    {
      name              = "Copy script"
      action_on_failure = "CONTINUE"

      hadoop_jar_step {
        jar  = "command-runner.jar"
        args = ["aws", "s3", "cp", "s3://path/to/script.py", "/home/hadoop/"]
      }
    },
    {
      name              = "Run script"
      action_on_failure = "CONTINUE"

      hadoop_jar_step {
        jar  = "command-runner.jar"
        args = ["bash", "/home/hadoop/script.py"]
      }
    },
  ]