Pyspark --SPARK_SUBMIT_选项中的文件在齐柏林飞艇中不起作用

Pyspark --SPARK_SUBMIT_选项中的文件在齐柏林飞艇中不起作用,pyspark,apache-zeppelin,Pyspark,Apache Zeppelin,我有一个python包,其中有许多内置在.egg文件中的模块,我想在齐柏林飞艇笔记本中使用它。根据齐柏林飞艇文档,要将此包传递给齐柏林飞艇spark解释器,可以通过conf/zeppelin-env.sh中spark\u SUBMIT\u选项中的--files选项将其导出 当我通过SPARK_SUBMIT_OPTIONS中的--files选项添加.egg时,齐柏林飞艇笔记本没有抛出错误,但我无法将模块导入齐柏林飞艇笔记本中 传递.egg文件的正确方法是什么 Spark版本为1.6.2,齐柏林飞艇

我有一个python包,其中有许多内置在.egg文件中的模块,我想在齐柏林飞艇笔记本中使用它。根据齐柏林飞艇文档,要将此包传递给齐柏林飞艇spark解释器,可以通过conf/zeppelin-env.sh中spark\u SUBMIT\u选项中的--files选项将其导出

当我通过SPARK_SUBMIT_OPTIONS中的--files选项添加.egg时,齐柏林飞艇笔记本没有抛出错误,但我无法将模块导入齐柏林飞艇笔记本中

传递.egg文件的正确方法是什么

Spark版本为1.6.2,齐柏林飞艇版本为0.6.0

zepplein-env.sh文件包含以下内容:

export SPARK_HOME=/home/me/spark-1.6.1-bin-hadoop2.6
export SPARK_SUBMIT_OPTIONS="--jars /home/me/spark-csv-1.5.0-s_2.10.jar,/home/me/commons-csv-1.4.jar --files /home/me/models/Churn-zeppelin/package/build/dist/fly_libs-1.1-py2.7.egg"

您还需要调整executor节点上的Python路径:

export SPARK_SUBMIT_OPTIONS="... --conf 'spark.executorEnv.PYTHONPATH=fly_libs-1.1-py2.7.egg:pyspark.zip:py4j-0.10.3-src.zip' ..."
似乎不可能附加到现有的python路径,因此请确保列出所有必需的依赖项