为Spark集群上的jupyter笔记本指定python文件
我正在星火簇上运行一个jupyter笔记本(带纱线)。我正在使用“findspark”包来设置笔记本,它工作得非常好(我通过SSH隧道连接到集群主机)。 当我写一个“自给自足”的笔记本时,它工作得非常完美,例如,以下代码运行时没有问题:为Spark集群上的jupyter笔记本指定python文件,python,apache-spark,pyspark,jupyter-notebook,Python,Apache Spark,Pyspark,Jupyter Notebook,我正在星火簇上运行一个jupyter笔记本(带纱线)。我正在使用“findspark”包来设置笔记本,它工作得非常好(我通过SSH隧道连接到集群主机)。 当我写一个“自给自足”的笔记本时,它工作得非常完美,例如,以下代码运行时没有问题: import findspark findspark.init() import pyspark sc = pyspark.SparkContext(appName='myApp') a = sc.range(1000,numSlices=10) a.tak
import findspark
findspark.init()
import pyspark
sc = pyspark.SparkContext(appName='myApp')
a = sc.range(1000,numSlices=10)
a.take(10)
sc.stop()
火花工作完全分配给了工人们。但是,当我想使用我编写的python包时,worker上缺少文件
当我不使用Jupyter笔记本电脑时,当我使用spark submit--master Thread--py files myPackageSrcFiles.zip时,我的spark作业工作正常,例如,以下代码正确运行:
main.py
import pyspark
from myPackage import myFunc
sc = pyspark.SparkContext(appName='myApp')
a = sc.range(1000,numSlices=10)
b = a.map(lambda x: myFunc(x))
b.take(10)
sc.stop()
然后
问题是:如何从jupyter笔记本运行main.py?我尝试在SparkContext中使用pyfiles关键字指定.zip包,但出现错误
我尝试在SparkContext中使用pyfiles关键字指定.zip包,但出现了一个错误
情况是:
sc = pyspark.SparkContext(appName='myApp', pyFiles=["myPackageSrcFiles.zip"])
或者您可以addPyFile
sc.addPyFile("myPackageSrcFiles.zip")
sc.addPyFile("myPackageSrcFiles.zip")