Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 在oozie中添加pyspark python路径_Apache Spark_Pyspark_Oozie - Fatal编程技术网

Apache spark 在oozie中添加pyspark python路径

Apache spark 在oozie中添加pyspark python路径,apache-spark,pyspark,oozie,Apache Spark,Pyspark,Oozie,我正在尝试使用色调在Oozie上运行一个简单的python脚本。我使用的是已安装的anaconda包裹,因此我还添加了Cloudera manager,spark配置(spark conf/spark env.sh的spark Service高级配置片段(安全阀)) 运行作业时,我遇到一个python错误 ImportError:没有名为pandas.io.json的模块 ,这意味着PYSPARK_PYTHON似乎并没有从anaconda那里拿走 我试图添加一个带有 PYSPARK_PYTHON

我正在尝试使用色调在Oozie上运行一个简单的python脚本。我使用的是已安装的anaconda包裹,因此我还添加了Cloudera manager,spark配置(spark conf/spark env.sh的spark Service高级配置片段(安全阀))

运行作业时,我遇到一个python错误 ImportError:没有名为pandas.io.json的模块 ,这意味着PYSPARK_PYTHON似乎并没有从anaconda那里拿走

我试图添加一个带有

PYSPARK_PYTHON=/opt/cloudera/parcels/Anaconda/bin/python
在火花行动通过色调,但似乎不起作用

如果我通过CLI运行脚本并spark submit,它就会工作。 如果我通过Hue在Oozie上运行其他python脚本(没有来自anaconda的包),它就可以工作


我错过了什么/

通过Oozie使用spark时,您需要告诉launcher容器(启动spark会话的容器)上应该设置哪些环境变量


尝试使用key
oozie.launcher.mapreduce.map.env
和value
PYSPARK\u PYTHON=/opt/cloudera/parcels/Anaconda/bin/PYTHON
添加spark action的新属性,它应该可以按预期工作。

您好,我可以获取oozie spark action的属性,以便spark作业以“用户”而不是“纱线”的形式提交此功能被调用吗“模拟”,据我所知,它不可配置为操作,但可配置为整个oozie服务器配置。您节省了我的时间!Nit:“mapred”属性自Hadoop V2以来就不受欢迎,在V3=>
oozie.launcher.mapreduce.map.env中可能会被忽略
PYSPARK_PYTHON=/opt/cloudera/parcels/Anaconda/bin/python