AWS EMR,使用terraform提交python pyspark脚本作为步骤
我已经成功地使用terraform创建了一个EMR集群,根据terraform文档,它指定了如何将步骤作为jar提交给EMR 其中缺少作为步骤添加pyspark脚本的as文档。AWS EMR,使用terraform提交python pyspark脚本作为步骤,pyspark,terraform,amazon-emr,Pyspark,Terraform,Amazon Emr,我已经成功地使用terraform创建了一个EMR集群,根据terraform文档,它指定了如何将步骤作为jar提交给EMR 其中缺少作为步骤添加pyspark脚本的as文档。 有没有人有使用terraform将pyspark脚本添加为EMR步骤的经验?一种常见的方法是从S3复制脚本,然后使用命令运行程序.jar执行脚本。(我不知道这是否理想…) 一种常见的方法是从S3复制脚本,并使用command runner.jar执行脚本。(我不知道这是否理想…) 我得到的错误类似于属性“step”的不
有没有人有使用terraform将pyspark脚本添加为EMR步骤的经验?一种常见的方法是从S3复制脚本,然后使用
命令运行程序.jar
执行脚本。(我不知道这是否理想…)
一种常见的方法是从S3复制脚本,并使用
command runner.jar
执行脚本。(我不知道这是否理想…)
我得到的错误类似于属性“step”的不适当值:元素0:属性“hadoop\u jar\u step”:元素0:属性“main\u class”和“properties”是必需的。我得到的错误类似于属性“step”的不适当值:元素0:属性“hadoop\u jar\u step”:元素0:属性“main\u class”和“properties”是必需的。
step {
action_on_failure = "TERMINATE_CLUSTER"
name = "Setup Hadoop Debugging"
hadoop_jar_step {
jar = "command-runner.jar"
args = ["state-pusher-script"]
}
}
step = [
{
name = "Copy script"
action_on_failure = "CONTINUE"
hadoop_jar_step {
jar = "command-runner.jar"
args = ["aws", "s3", "cp", "s3://path/to/script.py", "/home/hadoop/"]
}
},
{
name = "Run script"
action_on_failure = "CONTINUE"
hadoop_jar_step {
jar = "command-runner.jar"
args = ["bash", "/home/hadoop/script.py"]
}
},
]