正在尝试为运行在Amazon EMR上的Pyspark安装pandas

正在尝试为运行在Amazon EMR上的Pyspark安装pandas,pandas,pyspark,amazon-emr,Pandas,Pyspark,Amazon Emr,这个问题实际上适用于任何Python包。我有一个在Spark作业之前运行的引导脚本,我假设需要在该脚本中安装pandas。我尝试了很多不同的方法,但似乎都不管用(pip安装、easy_安装、yum安装等)。当导入中的作业失败时,所有作业都会失败。我正在运行EMR v5.12.1和Python 3.4 sudo python3 -m pip install pandas 这是我们在bootstarp.sh中编写的,用于安装pandas

这个问题实际上适用于任何Python包。我有一个在Spark作业之前运行的引导脚本,我假设需要在该脚本中安装pandas。我尝试了很多不同的方法,但似乎都不管用(pip安装、easy_安装、yum安装等)。当导入中的作业失败时,所有作业都会失败。我正在运行EMR v5.12.1和Python 3.4

sudo python3 -m pip install pandas
这是我们在
bootstarp.sh
中编写的,用于安装
pandas