AWS EMR，使用terraform提交python pyspark脚本作为步骤_Pyspark_Terraform_Amazon Emr

AWS EMR，使用terraform提交python pyspark脚本作为步骤

pyspark terraform

AWS EMR，使用terraform提交python pyspark脚本作为步骤,pyspark,terraform,amazon-emr,Pyspark,Terraform,Amazon Emr,我已经成功地使用terraform创建了一个EMR集群，根据terraform文档，它指定了如何将步骤作为jar提交给EMR 其中缺少作为步骤添加pyspark脚本的as文档。有没有人有使用terraform将pyspark脚本添加为EMR步骤的经验？一种常见的方法是从S3复制脚本，然后使用命令运行程序.jar执行脚本。（我不知道这是否理想…）一种常见的方法是从S3复制脚本，并使用command runner.jar执行脚本。（我不知道这是否理想…）我得到的错误类似于属性“step”的不

我已经成功地使用terraform创建了一个EMR集群，根据terraform文档，它指定了如何将步骤作为jar提交给EMR

其中缺少作为步骤添加pyspark脚本的as文档。

有没有人有使用terraform将pyspark脚本添加为EMR步骤的经验？

一种常见的方法是从S3复制脚本，然后使用

命令运行程序.jar

执行脚本。（我不知道这是否理想…）

一种常见的方法是从S3复制脚本，并使用

command runner.jar

执行脚本。（我不知道这是否理想…）

我得到的错误类似于属性“step”的不适当值：元素0：属性“hadoop\u jar\u step”：元素0：属性“main\u class”和“properties”是必需的。我得到的错误类似于属性“step”的不适当值：元素0：属性“hadoop\u jar\u step”：元素0：属性“main\u class”和“properties”是必需的。

step {
    action_on_failure = "TERMINATE_CLUSTER"
    name              = "Setup Hadoop Debugging"

    hadoop_jar_step {
      jar  = "command-runner.jar"
      args = ["state-pusher-script"]
    }
  }

  step = [
    {
      name              = "Copy script"
      action_on_failure = "CONTINUE"

      hadoop_jar_step {
        jar  = "command-runner.jar"
        args = ["aws", "s3", "cp", "s3://path/to/script.py", "/home/hadoop/"]
      }
    },
    {
      name              = "Run script"
      action_on_failure = "CONTINUE"

      hadoop_jar_step {
        jar  = "command-runner.jar"
        args = ["bash", "/home/hadoop/script.py"]
      }
    },
  ]