Python 2.7 为Spark安装正确的python版本_Python 2.7_Numpy_Apache Spark

Python 2.7 为Spark安装正确的python版本

python-2.7 numpy apache-spark

Python 2.7 为Spark安装正确的python版本,python-2.7,numpy,apache-spark,Python 2.7,Numpy,Apache Spark,我在我的机器上使用Python 2.7.6 $ python --version Python 2.7.6 在我的机器上，Spark 1.1.0依赖于Python 2.7.6。如果我执行： user@user:~/bin/spark-1.1.0$ ./bin/pyspark 我明白了 Python 2.7.6 (default, Mar 22 2014, 22:59:56) [GCC 4.8.2] on linux2 Type "help", "copyright", "credits"

我在我的机器上使用Python 2.7.6

$ python --version
Python 2.7.6

在我的机器上，Spark 1.1.0依赖于Python 2.7.6。如果我执行：

user@user:~/bin/spark-1.1.0$ ./bin/pyspark

我明白了

Python 2.7.6 (default, Mar 22 2014, 22:59:56) 
[GCC 4.8.2] on linux2
Type "help", "copyright", "credits" or "license" for more information.
.
.
.

今天我安装了Spark 1.3.1的新预构建版本（我不知道为什么，但依赖于python 2.7.5）。如果现在对新版本执行相同的命令：

user@user:~/bin/spark-1.3.1-bin-hadoop2.6$ ./bin/pyspark

我得到了较旧的Python版本

Python 2.7.5 (default, Jun 18 2014, 09:37:37) 
[GCC 4.6.3] on linux2
Type "help", "copyright", "credits" or "license" for more information.
.
.
.

主要区别在于，在旧版本的Spark中，我可以执行

import numpy

，而在新版本中则不能执行

我在

.bashrc

文件中创建了Python的下一个路径：

export PYTHONPATH=$PYTHONPATH:usr/lib/python2.7

我找不到在Python中区分2.7.6版和2.7.5版的方法，因此我不知道Python 2.7.6的存储位置（缺少命令

find

）

您可以通过环境变量“pyspark_python”设置pyspark和spark submit中使用的python可执行文件

比如说,

PYSPARK_PYTHON=/opt/local/PYTHON-2.7/bin/PYTHON-PYSPARK

我通过从HD中删除python2.7.5解决了这个问题。主题可以关闭

我运行了这个，它运行得非常好。“导出PYSPARK_PYTHON=python3”