Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/313.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
为Spark集群上的jupyter笔记本指定python文件_Python_Apache Spark_Pyspark_Jupyter Notebook - Fatal编程技术网

为Spark集群上的jupyter笔记本指定python文件

为Spark集群上的jupyter笔记本指定python文件,python,apache-spark,pyspark,jupyter-notebook,Python,Apache Spark,Pyspark,Jupyter Notebook,我正在星火簇上运行一个jupyter笔记本(带纱线)。我正在使用“findspark”包来设置笔记本,它工作得非常好(我通过SSH隧道连接到集群主机)。 当我写一个“自给自足”的笔记本时,它工作得非常完美,例如,以下代码运行时没有问题: import findspark findspark.init() import pyspark sc = pyspark.SparkContext(appName='myApp') a = sc.range(1000,numSlices=10) a.tak

我正在星火簇上运行一个jupyter笔记本(带纱线)。我正在使用“findspark”包来设置笔记本,它工作得非常好(我通过SSH隧道连接到集群主机)。 当我写一个“自给自足”的笔记本时,它工作得非常完美,例如,以下代码运行时没有问题:

import findspark
findspark.init()

import pyspark

sc = pyspark.SparkContext(appName='myApp')
a = sc.range(1000,numSlices=10)
a.take(10)
sc.stop()
火花工作完全分配给了工人们。但是,当我想使用我编写的python包时,worker上缺少文件

当我不使用Jupyter笔记本电脑时,当我使用spark submit--master Thread--py files myPackageSrcFiles.zip时,我的spark作业工作正常,例如,以下代码正确运行:

main.py

import pyspark
from myPackage import myFunc

sc = pyspark.SparkContext(appName='myApp')
a = sc.range(1000,numSlices=10)
b = a.map(lambda x: myFunc(x)) 
b.take(10)
sc.stop()
然后

问题是:如何从jupyter笔记本运行main.py?我尝试在SparkContext中使用pyfiles关键字指定.zip包,但出现错误

我尝试在SparkContext中使用pyfiles关键字指定.zip包,但出现了一个错误

情况是:

sc = pyspark.SparkContext(appName='myApp', pyFiles=["myPackageSrcFiles.zip"])
或者您可以
addPyFile

sc.addPyFile("myPackageSrcFiles.zip")
sc.addPyFile("myPackageSrcFiles.zip")