Apache spark 在dataproc上找不到有效的SPARK_主页
谷歌云上Dataproc集群执行的Spark作业被困在一个任务上Apache spark 在dataproc上找不到有效的SPARK_主页,apache-spark,pyspark,yarn,rdd,google-cloud-dataproc,Apache Spark,Pyspark,Yarn,Rdd,Google Cloud Dataproc,谷歌云上Dataproc集群执行的Spark作业被困在一个任务上PythonRDD.scala:446 错误日志显示搜索时,找不到有效的SPARK\u主页。。。/hadoop/thread/nm local dir/usercache/root/ 问题是,默认情况下,应该在dataproc集群上设置SPARK_HOME。 其他不使用RDD的spark作业也可以正常工作 在集群初始化期间,我没有重新安装spark(但我已经尝试过了,我以前认为这是问题的根源) 我还发现,在运行任务一分钟后,我的所有
PythonRDD.scala:446
错误日志显示搜索时,找不到有效的SPARK\u主页。。。/hadoop/thread/nm local dir/usercache/root/
问题是,默认情况下,应该在dataproc集群上设置SPARK_HOME。
其他不使用RDD的spark作业也可以正常工作
在集群初始化期间,我没有重新安装spark(但我已经尝试过了,我以前认为这是问题的根源)
我还发现,在运行任务一分钟后,我的所有执行者都被撤职了
是的,我已尝试运行以下初始化操作,但没有任何帮助:
#!/bin/bash
cat << EOF | tee -a /etc/profile.d/custom_env.sh /etc/*bashrc >/dev/null
export SPARK_HOME=/usr/lib/spark/
EOF
#/bin/bash
cat/dev/null
导出SPARK\u HOME=/usr/lib/SPARK/
EOF
有什么帮助吗?我正在使用一个自定义映射函数。当我将函数放在一个单独的文件中时,问题就消失了。可能是@stefanobaghino的重复,而不是重复。在那件事上,他在当地经营spark。Dataproc cluster已经预装了spark。您应该添加spark_HOME环境变量,该变量的值为“{path_to_spark}/bin”@Lejla您无法控制path
?@Lejla看一看,如果这解决了您的问题,我将以dupeHi的身份结束这个问题,您能详细说明您的解决方案吗?例如,您是否有github链接?或者你能更详细地描述一下吗?我想我也面临同样的问题,你的解决方案可能会有所帮助。