Apache spark 在Google cloud Dataproc上安装pyspark,原因是“搜索['/tmp','/usr/local/bin']时找不到有效的SPARK_主页”
我用googleclouddataproc创建了一个集群。在提交作业之前,我可以将作业提交到集群 pip3安装pyspark 在集群上。之后,每次尝试提交作业时,我都会收到一个错误: 搜索['/tmp'时找不到有效的SPARK_HOME, “/usr/local/bin”] /usr/local/bin/spark提交:第27行:/bin/spark类:没有这样的文件或目录Apache spark 在Google cloud Dataproc上安装pyspark,原因是“搜索['/tmp','/usr/local/bin']时找不到有效的SPARK_主页”,apache-spark,pyspark,pip,google-cloud-platform,google-cloud-dataproc,Apache Spark,Pyspark,Pip,Google Cloud Platform,Google Cloud Dataproc,我用googleclouddataproc创建了一个集群。在提交作业之前,我可以将作业提交到集群 pip3安装pyspark 在集群上。之后,每次尝试提交作业时,我都会收到一个错误: 搜索['/tmp'时找不到有效的SPARK_HOME, “/usr/local/bin”] /usr/local/bin/spark提交:第27行:/bin/spark类:没有这样的文件或目录 我注意到,即使在安装pyspark之前,SPARK_HOME也没有设置任何设置。然而,我可以提交的工作刚刚好。我想知道为什
我注意到,即使在安装pyspark之前,SPARK_HOME也没有设置任何设置。然而,我可以提交的工作刚刚好。我想知道为什么安装pyspark会导致这个问题,以及如何解决它 Pyspark已经预装在Dataproc上-您应该调用Pyspark命令而不是python。目前,尝试pip安装pyspark或py4j将破坏Dataproc上的pyspark。您还需要小心不要pip安装任何依赖于pyspark/py4j的软件包。我们意识到这个问题: 如果您只是尝试切换到Python 3,那么当前最简单的方法是在创建集群时运行miniconda初始化操作:。init操作还方便地允许您指定要安装的额外pip或conda包 我们还知道pyspark不在PYTHONPATH上用于python解释器。现在,如果要运行pyspark代码,请使用pyspark命令。请注意,pyspark命令源于/etc/spark/conf/spark-env.sh,如果要在python shell中运行import-pyspark,则必须手动执行该操作
侧注:不要将SHIGRATE DATAPROC作业提交到群集并运行PyScice,而是考虑运行GyDeaDaaPro作业提交PyScor或使用.
brew安装apache spark 实际上已经提供了一个工作的pyspark外壳。不需要另外添加 pip安装pyspark如果提交作业已成功运行,那么为什么必须为安装pyspark?您的手动安装与配置的冲突pyspark@RameshMaharjan赞成。。。我刚刚意识到,我试图安装pyspark,因为当我在其中运行python shell时,它没有pyspark模块。现在我正在重新创建集群,看看它是否会成功。祝你好运。我应该帮助你;