Apache spark 在Google cloud Dataproc上安装pyspark，原因是“搜索['/tmp'，'/usr/local/bin']时找不到有效的SPARK_主页”_Apache Spark_Pyspark_Pip_Google Cloud Platform_Google Cloud Dataproc

Apache spark 在Google cloud Dataproc上安装pyspark，原因是“搜索['/tmp'，'/usr/local/bin']时找不到有效的SPARK_主页”

apache-spark pyspark pip google-cloud-platform

Apache spark 在Google cloud Dataproc上安装pyspark，原因是“搜索['/tmp'，'/usr/local/bin']时找不到有效的SPARK_主页”,apache-spark,pyspark,pip,google-cloud-platform,google-cloud-dataproc,Apache Spark,Pyspark,Pip,Google Cloud Platform,Google Cloud Dataproc,我用googleclouddataproc创建了一个集群。在提交作业之前，我可以将作业提交到集群 pip3安装pyspark 在集群上。之后，每次尝试提交作业时，我都会收到一个错误：搜索['/tmp'时找不到有效的SPARK_HOME， “/usr/local/bin”] /usr/local/bin/spark提交：第27行：/bin/spark类：没有这样的文件或目录我注意到，即使在安装pyspark之前，SPARK_HOME也没有设置任何设置。然而，我可以提交的工作刚刚好。我想知道为什

我用googleclouddataproc创建了一个集群。在提交作业之前，我可以将作业提交到集群

pip3安装pyspark

在集群上。之后，每次尝试提交作业时，我都会收到一个错误：

搜索['/tmp'时找不到有效的SPARK_HOME， “/usr/local/bin”] /usr/local/bin/spark提交：第27行：/bin/spark类：没有这样的文件或目录

我注意到，即使在安装pyspark之前，SPARK_HOME也没有设置任何设置。然而，我可以提交的工作刚刚好。我想知道为什么安装pyspark会导致这个问题，以及如何解决它

Pyspark已经预装在Dataproc上-您应该调用Pyspark命令而不是python。目前，尝试pip安装pyspark或py4j将破坏Dataproc上的pyspark。您还需要小心不要pip安装任何依赖于pyspark/py4j的软件包。我们意识到这个问题：

如果您只是尝试切换到Python 3，那么当前最简单的方法是在创建集群时运行miniconda初始化操作：。init操作还方便地允许您指定要安装的额外pip或conda包

我们还知道pyspark不在PYTHONPATH上用于python解释器。现在，如果要运行pyspark代码，请使用pyspark命令。请注意，pyspark命令源于/etc/spark/conf/spark-env.sh，如果要在python shell中运行import-pyspark，则必须手动执行该操作

侧注：不要将SHIGRATE DATAPROC作业提交到群集并运行PyScice，而是考虑运行GyDeaDaaPro作业提交PyScor或使用.

brew安装apache spark 实际上已经提供了一个工作的pyspark外壳。不需要另外添加 pip安装pyspark

如果提交作业已成功运行，那么为什么必须为安装pyspark？您的手动安装与配置的冲突pyspark@RameshMaharjan赞成。。。我刚刚意识到，我试图安装pyspark，因为当我在其中运行python shell时，它没有pyspark模块。现在我正在重新创建集群，看看它是否会成功。祝你好运。我应该帮助你；