pip安装pyspark后运行pyspark

pip安装pyspark后运行pyspark,pip,pyspark,Pip,Pyspark,我想在我的家用机器上安装pyspark。是的 pip install pyspark pip install jupyter 两种方法似乎都很有效 但是当我尝试运行pyspark时 pyspark Could not find valid SPARK_HOME while searching ['/home/user', '/home/user/.local/bin'] 应将SPARK\u HOME设置为什么?PyPi的Pyspark(即安装了pip)不包含完整的Pyspark功能;它仅用于

我想在我的家用机器上安装
pyspark
。是的

pip install pyspark
pip install jupyter
两种方法似乎都很有效

但是当我尝试运行
pyspark

pyspark
Could not find valid SPARK_HOME while searching ['/home/user', '/home/user/.local/bin']
应将
SPARK\u HOME
设置为什么?

PyPi的Pyspark(即安装了
pip
)不包含完整的Pyspark功能;它仅用于现有集群中的Spark安装[编辑:或仅在本地模式下-请参阅接受的答案]。从:

Spark的Python打包并不打算取代所有其他用例。此Python打包版本的Spark适合与现有集群(Spark standalone、Thread或Mesos)交互,但不包含设置您自己的独立Spark集群所需的工具。您可以从ApacheSpark下载页面下载完整版本的Spark

注意:如果您将其用于Spark单机群集,则必须 确保版本(包括次要版本)匹配,或者您可以 经历奇怪的错误


您应该下载完整的Spark发行版,如前所述

我刚刚遇到了同样的问题,但结果是
pip install pyspark
下载了在本地模式下运行良好的spark Distribution。Pip只是没有设置适当的
SPARK\u HOME
。但是当我手动设置时,pyspark就像一个符咒一样工作(无需下载任何附加软件包)

如果您使用的是python 3.0+ 然后打开anaconda提示符 执行下面的命令
pip3安装——用户pyspark

要安装Spark,请确保已安装Java 8或更高版本。然后转到页面,选择最新的spark发行版,为Hadoop预构建包并下载它。解压文件并移动到/opt(或任何文件夹,但记住移动位置)

然后创建一个符号链接。通过这种方式,您可以下载并使用多个spark版本

ln -s /opt/spark-2.4.4 /opt/spark
将以下内容添加到您的,
.bash\u配置文件中,告诉您的bash在哪里可以找到Spark

export SPARK_HOME=/opt/spark
export PATH=$SPARK_HOME/bin:$PATH
最后,要将Spark设置为使用python3,请将以下内容添加到/opt/Spark/conf/Spark-env.sh文件中

export PYSPARK_PYTHON=/usr/local/bin/python3
export PYSPARK_DRIVER_PYTHON=python3

最简单的方法-打开anaconda提示符并键入pip安装-用户pyspark/pip3安装-用户pyspark

@eleanora您只需下载、解压缩并设置
SPARK\u HOME
-在这里查看我关于“升级”的答案,但网络上确实充满了此类分步教程…这个解决方案对我很有用。当我使用虚拟环境时,我必须按照以下方式进行:PYSPARK_PYTHON=python3 SPARK_HOME=~/Users/“myname”/virtualenvs/“env_name”/lib/PYTHON(文件夹名)/site packages/pysparkNot为我工作,我无法避免“Py4JError:调用o25.isBarrier时出错。Trace:py4j.Py4JException:Method isBarrier([])不存在”欢迎来到SO;请务必花一分钟来看看如何正确格式化您的代码
export SPARK_HOME=/opt/spark
export PATH=$SPARK_HOME/bin:$PATH
export PYSPARK_PYTHON=/usr/local/bin/python3
export PYSPARK_DRIVER_PYTHON=python3