Apache spark EMR活动的数据管道失败

Apache spark EMR活动的数据管道失败,apache-spark,amazon-emr,amazon-data-pipeline,Apache Spark,Amazon Emr,Amazon Data Pipeline,我试图在AWS数据管道上运行spark步骤。我得到以下例外情况:- amazonaws.datapipeline.taskrunner.TaskExecutionException:未能 完成EMR变换。在 amazonaws.datapipeline.activity.EmrActivity.runActivity(EmrActivity.java:67) 在 amazonaws.datapipeline.objects.AbstractActivity.run(AbstractActivit

我试图在AWS数据管道上运行spark步骤。我得到以下例外情况:-

amazonaws.datapipeline.taskrunner.TaskExecutionException:未能 完成EMR变换。在 amazonaws.datapipeline.activity.EmrActivity.runActivity(EmrActivity.java:67) 在 amazonaws.datapipeline.objects.AbstractActivity.run(AbstractActivity.java:16) 在 amazonaws.datapipeline.taskrunner.TaskPoller.executemoterunner(TaskPoller.java:136) 在 amazonaws.datapipeline.taskrunner.TaskPoller.executeTask(TaskPoller.java:105) 在 amazonaws.datapipeline.taskrunner.TaskPoller$1.run(TaskPoller.java:81) 在 private.com.amazonaws.services.datapipeline.poller.PollWorker.executeWork(PollWorker.java:76) 在 private.com.amazonaws.services.datapipeline.poller.PollWorker.run(PollWorker.java:53) 在java.lang.Thread.run(Thread.java:748)处,由以下原因引起: amazonaws.datapipeline.taskrunner.TaskExecutionException:EMR作业 带有jobFlowId的“@DefaultEmrActivity1_2017-11-20T12:13:08_尝试=1” “j-2E7PU1OK3GIJI”失败,状态为“失败”,原因为“群集” 完成最后一步后准备就绪。“。步 “df-0693981356F3KEDFQ6GG@DefaultemPractivity1\u 2017-11-20T12:13:08\u尝试=1” 处于状态“失败”,原因为“空” amazonaws.datapipeline.cluster.EmrUtil.runSteps(EmrUtil.java:286)位于 amazonaws.datapipeline.activity.EmrActivity.runActivity(EmrActivity.java:63) ... 还有7个

群集正在正确旋转

以下是管道的屏幕截图:-

我认为“介入”活动存在一些问题。任何输入都会有帮助。

问题在于:- 1) 脚本应该用逗号分隔。例如:

command-runner.jar,spark-submit,--deploy-mode,cluster,--class,com.amazon.Main
链接:-


2) Empractivity不支持分段。因此,我们不能在step指令中使用
${INPUT1\u STAGING\u DIR}
。目前,我已将其替换为硬编码的S3 URL。

如果没有最小、完整且可验证的示例和整个错误堆栈,则无法解决此问题。我将上载整个错误堆栈。同时,1)步骤中是否有任何错误,如spark submit命令?根据:-,我们应该使用逗号,对吗?2) 我们可以使用S3进行输入,对吗?您是否尝试启动集群并手动提交类似的Spark步骤?跟踪未显示故障原因:
步骤“df-0693981356F3KEDFQ6GG_u@DefaultEmrActivity1_2017-11-20T12:13:08_trunt=1”处于状态“FAILED”,原因为“null”
。你能访问S3上的日志吗?