Python 由于导入错误,Pyspark程序无法在OOZIE中运行

Python 由于导入错误,Pyspark程序无法在OOZIE中运行,python,hadoop,apache-spark,oozie,pyspark,Python,Hadoop,Apache Spark,Oozie,Pyspark,我试图在Oozie中运行一个简单的PySpark程序,但未能成功运行。我有一个简单的PySpark程序,它在RDD中的HDFS上加载一个文件。我将该RDD转换为数据帧,然后将其转换为数据帧。我在进口熊猫时出错了。 我的ClouderaVM版本5.4.2上安装了anaconda python发行版。我将Anaconda dir(/home/cloudera/Anaconda/bin/)添加到我的系统类路径中。下面是echo$PATH语句的输出: /home/cloudera/anaconda/bi

我试图在Oozie中运行一个简单的PySpark程序,但未能成功运行。我有一个简单的PySpark程序,它在RDD中的HDFS上加载一个文件。我将该RDD转换为数据帧,然后将其转换为数据帧。我在进口熊猫时出错了。 我的ClouderaVM版本5.4.2上安装了anaconda python发行版。我将Anaconda dir(
/home/cloudera/Anaconda/bin/
)添加到我的系统
类路径中。下面是
echo$PATH
语句的输出:

/home/cloudera/anaconda/bin:/home/cloudera/anaconda/bin:/usr/local/firefox:/sbin:/usr/java/jdk1.7.0_67-cloudera/bin:/usr/local/apache-ant/apache-ant-1.9.2/bin:/usr/local/apache-maven/apache-maven-3.0.4/bin:/usr/local/bin:/usr/bin:/usr/local/sbin:/usr/sbin:/usr/usr/sbin:/usr/sbin:/sbin:/sbin:/sbin:/home/cloudera/bin

该程序通过CLI运行良好,但在我尝试通过OOZIE作业运行时失败

以下是我得到的错误日志:

Stdoutput/usr/lib/spark/python/pyspark/sql/context.py:156:UserWarning:不推荐使用dict的RDD来推断模式,请改用pyspark.sql.Row
Stdoutput warnings.warn(“不推荐使用dict的RDD推断模式,” Stdoutput回溯(最后一次调用):
Stdoutput文件“/home/cloudera/Dataframe/apps/shell/lib/test.py”,第48行,在
Stdoutput cleand=inputdd.toPandas()
toPandas中的Stdoutput文件“/usr/lib/spark/python/pyspark/sql/dataframe.py”,第717行
Stdoutput作为pd导入熊猫
Stdoutput ImportError:没有名为pandas的模块
Shell命令1的退出代码

你试过设置
PYSPARK\u PYTHON
变量吗?没有。我没有试过设置
PYSPARK\u PYTHON
变量。如果你能帮我设置这个变量,那会很有帮助。它应该在
conf/spark env.sh
中设置,并指向PYTHON可执行文件。
conf/spark-env.sh.template中应该有一个模板文件。非常感谢。这真的很有效:)。。。谢谢alit@Zero323不客气。那么我将添加它作为答案。您尝试过设置
PYSPARK\u PYTHON
变量吗?没有,我没有尝试过设置
PYSPARK\u PYTHON
变量。如果你能帮我设置这个变量,那将非常有帮助。它应该在
conf/spark env.sh
中设置,并指向Python可执行文件。
conf/spark env.sh.template
中应该有一个模板文件。非常感谢。这真的奏效了:)。。。谢谢alit@Zero323不客气。那我就加上它作为答案。