Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 在dataproc上找不到有效的SPARK_主页_Apache Spark_Pyspark_Yarn_Rdd_Google Cloud Dataproc - Fatal编程技术网

Apache spark 在dataproc上找不到有效的SPARK_主页

Apache spark 在dataproc上找不到有效的SPARK_主页,apache-spark,pyspark,yarn,rdd,google-cloud-dataproc,Apache Spark,Pyspark,Yarn,Rdd,Google Cloud Dataproc,谷歌云上Dataproc集群执行的Spark作业被困在一个任务上PythonRDD.scala:446 错误日志显示搜索时,找不到有效的SPARK\u主页。。。/hadoop/thread/nm local dir/usercache/root/ 问题是,默认情况下,应该在dataproc集群上设置SPARK_HOME。 其他不使用RDD的spark作业也可以正常工作 在集群初始化期间,我没有重新安装spark(但我已经尝试过了,我以前认为这是问题的根源) 我还发现,在运行任务一分钟后,我的所有

谷歌云上Dataproc集群执行的Spark作业被困在一个任务上
PythonRDD.scala:446

错误日志显示搜索时,
找不到有效的SPARK\u主页。。。
/hadoop/thread/nm local dir/usercache/root/

问题是,默认情况下,应该在dataproc集群上设置SPARK_HOME。 其他不使用RDD的spark作业也可以正常工作

在集群初始化期间,我没有重新安装spark(但我已经尝试过了,我以前认为这是问题的根源)

我还发现,在运行任务一分钟后,我的所有执行者都被撤职了

是的,我已尝试运行以下初始化操作,但没有任何帮助:

#!/bin/bash

cat << EOF | tee -a /etc/profile.d/custom_env.sh /etc/*bashrc >/dev/null
export SPARK_HOME=/usr/lib/spark/
EOF
#/bin/bash
cat/dev/null
导出SPARK\u HOME=/usr/lib/SPARK/
EOF

有什么帮助吗?

我正在使用一个自定义映射函数。当我将函数放在一个单独的文件中时,问题就消失了。

可能是@stefanobaghino的重复,而不是重复。在那件事上,他在当地经营spark。Dataproc cluster已经预装了spark。您应该添加spark_HOME环境变量,该变量的值为“{path_to_spark}/bin”@Lejla您无法控制
path
?@Lejla看一看,如果这解决了您的问题,我将以dupeHi的身份结束这个问题,您能详细说明您的解决方案吗?例如,您是否有github链接?或者你能更详细地描述一下吗?我想我也面临同样的问题,你的解决方案可能会有所帮助。