Pandas 如何设置Spark以使用由anaconda管理的熊猫?

Pandas 如何设置Spark以使用由anaconda管理的熊猫?,pandas,apache-spark,pyspark,anaconda,Pandas,Apache Spark,Pyspark,Anaconda,我们已经将Spark版本从2.2更新到2.3,但是管理员没有更新pandas。因此,我们的作业失败,出现以下错误: 导入错误:必须安装大于等于0.19.2的熊猫;但是,您的版本是0.18.1 我们的管理团队建议从anaconda下载最新版本创建VM(使用命令conda create-n myenv anaconda) 我这样做了,在使用source activate myenv激活本地环境后,当我登录pyspark2时,我发现它正在挑选新版本的pandas 但是当我使用spark2 submit

我们已经将Spark版本从2.2更新到2.3,但是管理员没有更新pandas。因此,我们的作业失败,出现以下错误:

导入错误:必须安装大于等于0.19.2的熊猫;但是,您的版本是0.18.1

我们的管理团队建议从anaconda下载最新版本创建VM(使用命令
conda create-n myenv anaconda

我这样做了,在使用
source activate myenv
激活本地环境后,当我登录pyspark2时,我发现它正在挑选新版本的pandas

但是当我使用
spark2 submit
命令提交作业时,它就不起作用了。我在
spark2 submit
命令中添加了以下配置

--conf spark.pyspark.virtualenv.enabled=true  
--conf spark.pyspark.virtualenv.type=conda 
--conf spark.pyspark.virtualenv.requirements=/home/<user>/.conda/requirements_conda.txt --conf spark.pyspark.virtualenv.bin.path=/home/<user>/.conda/envs/myenv/bin
--conf spark.pyspark.virtualenv.enabled=true
--conf spark.pyspark.virtualenv.type=conda
--conf spark.pyspark.virtualenv.requirements=/home/.conda/requirements\u conda.txt--conf spark.pyspark.virtualenv.bin.path=/home/.conda/envs/myenv/bin
我还压缩了整个Python2.7文件夹,并在
--py files
选项中将其与其他.py文件
--py files/home//python.zip
一起传递,但熊猫的版本问题仍然相同

我试图按照URL中指定的说明操作,但仍然没有成功


如何修复它,并能够
spark2使用合适的熊猫提交

我认为您可能需要定义环境变量,例如
SPARK\u HOME
PYTHONPAH
指向虚拟环境中相应的位置

export SPARK_HOME=path_to_spark_in_virtualenv
export PYTHONPATH=$SPARK_HOME/python