Python 在纱线上运行火花作业
我正试图利用集群中的所有资源来运行Spark作业。我在所有节点上都安装了Cloudera Manager。这是我用来提交作业的命令Python 在纱线上运行火花作业,python,apache-spark,yarn,cloudera-manager,Python,Apache Spark,Yarn,Cloudera Manager,我正试图利用集群中的所有资源来运行Spark作业。我在所有节点上都安装了Cloudera Manager。这是我用来提交作业的命令 spark-submit --master yarn --deploy-mode cluster file:///[spark python file] file://[app argument 1] file://[app argument 2] 在执行过
spark-submit --master yarn
--deploy-mode cluster
file:///[spark python file]
file://[app argument 1]
file://[app argument 2]
在执行过程中,我收到以下错误:
diagnostics: Application application_1450777964379_0027 failed 2 times due to AM Container for appattempt_1450777964379_0027_000002 exited with exitCode: 1
任何关于如何修复它的想法都将不胜感激
编辑1
安装Spark的机器无法通过WEB UI访问。我试图下载源代码并阅读更多有关异常的信息
------------------------------------------------------------
| Job | Description |
------------------------------------------------------------
| 0 | saveAsTextFile at NativeMethodAccessorImpl.java:-2 |
------------------------------------------------------------
取自
如果路径以file://或hdfs://开头,则路径将变为ile://或dfs://。如果路径为绝对路径,则删除第一条斜线
没有特别的原因,需要修正
尝试使用绝对路径而不是
文件://
您是否有权限将文件保存在文件系统中?因为它是一个群集,所以我在每台计算机上创建了超级组,并且该组中的每个用户都有权读取/写入输出应写入的文件夹我看到了此线程,但是我得到了完全相同的结果,没有什么新的,错误描述是sameI建议你使用Spark邮件列表。他们可能会提供比社区更多的帮助(我怀疑这个帖子会有其他答案,除非有人悬赏)