Apache spark 如何让SparkSession查找添加的python文件
在运行Apache spark 如何让SparkSession查找添加的python文件,apache-spark,pyspark,bigdl,Apache Spark,Pyspark,Bigdl,在运行pip install BigDL==0.8.0之后,从python中的BigDL.util.common import*运行完成,没有问题 但是,使用以下任一SparkSessions: spark = (SparkSession.builder.master('yarn') .appName('test') .config("spark.jars", "/BigDL/spark/dl/target/bigdl-0.8.0-jar-with-dependencies-an
pip install BigDL==0.8.0
之后,从python中的BigDL.util.common import*运行完成,没有问题
但是,使用以下任一SparkSessions:
spark = (SparkSession.builder.master('yarn')
.appName('test')
.config("spark.jars", "/BigDL/spark/dl/target/bigdl-0.8.0-jar-with-dependencies-and-spark.jar")
.config('spark.submit.pyFiles', '/BigDL/pyspark/bigdl/util.zip')
.getOrCreate()
)
或
我得到以下错误
ImportError: ('No module named bigdl.util.common', <function subimport at 0x7fd442a36aa0>, ('bigdl.util.common',))
ImportError:('No module named bigdl.util.common',('bigdl.util.common',))
除了上面的'spark.submit.pyFiles'
配置之外,在SparkSession成功启动后,我还尝试了spark.sparkContext.addPyFile(“util.zip”)
,其中“util.zip”包含中的所有python文件
我还压缩了此文件夹(branch-0.8)中的所有内容,并指向.config('spark.submit.pyFiles','/path/to/bigdl.zip')
中的该文件,但这也不起作用
如何让SparkSession查看这些文件?找到了答案。在SparkSession启动后,唯一有效的方法是spark.sparkContext.addPyFile(“bigdl.zip”)
。其中“bigdl.zip”包含(branch-0.8)中的所有文件
不确定为什么.config('spark.submit.pyFiles','bigdl.zip')
无法工作
ImportError: ('No module named bigdl.util.common', <function subimport at 0x7fd442a36aa0>, ('bigdl.util.common',))