Apache spark 在dataproc上找不到有效的SPARK_主页_Apache Spark_Pyspark_Yarn_Rdd_Google Cloud Dataproc

Apache spark 在dataproc上找不到有效的SPARK_主页

apache-spark pyspark

Apache spark 在dataproc上找不到有效的SPARK_主页,apache-spark,pyspark,yarn,rdd,google-cloud-dataproc,Apache Spark,Pyspark,Yarn,Rdd,Google Cloud Dataproc,谷歌云上Dataproc集群执行的Spark作业被困在一个任务上PythonRDD.scala:446 错误日志显示搜索时，找不到有效的SPARK\u主页。。。/hadoop/thread/nm local dir/usercache/root/ 问题是，默认情况下，应该在dataproc集群上设置SPARK_HOME。其他不使用RDD的spark作业也可以正常工作在集群初始化期间，我没有重新安装spark（但我已经尝试过了，我以前认为这是问题的根源）我还发现，在运行任务一分钟后，我的所有

谷歌云上Dataproc集群执行的Spark作业被困在一个任务上

PythonRDD.scala:446

错误日志显示搜索时，

找不到有效的SPARK\u主页。。。/hadoop/thread/nm local dir/usercache/root/

问题是，默认情况下，应该在dataproc集群上设置SPARK_HOME。
其他不使用RDD的spark作业也可以正常工作
在集群初始化期间，我没有重新安装spark（但我已经尝试过了，我以前认为这是问题的根源）
我还发现，在运行任务一分钟后，我的所有执行者都被撤职了
是的，我已尝试运行以下初始化操作，但没有任何帮助：
#!/bin/bash

cat << EOF | tee -a /etc/profile.d/custom_env.sh /etc/*bashrc >/dev/null
export SPARK_HOME=/usr/lib/spark/
EOF

#/bin/bash
cat/dev/null
导出SPARK\u HOME=/usr/lib/SPARK/
EOF

有什么帮助吗？
我正在使用一个自定义映射函数。当我将函数放在一个单独的文件中时，问题就消失了。
可能是@stefanobaghino的重复，而不是重复。在那件事上，他在当地经营spark。Dataproc cluster已经预装了spark。您应该添加spark_HOME环境变量，该变量的值为“{path_to_spark}/bin”@Lejla您无法控制path
？@Lejla看一看，如果这解决了您的问题，我将以dupeHi的身份结束这个问题，您能详细说明您的解决方案吗？例如，您是否有github链接？或者你能更详细地描述一下吗？我想我也面临同样的问题，你的解决方案可能会有所帮助。