Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 在spark python中导入外部模块_Apache Spark_Pyspark_Amazon Emr_Spark Submit - Fatal编程技术网

Apache spark 在spark python中导入外部模块

Apache spark 在spark python中导入外部模块,apache-spark,pyspark,amazon-emr,spark-submit,Apache Spark,Pyspark,Amazon Emr,Spark Submit,我有一份pyspark应用程序的EMR工作。我的代码包括一些外部包和一些用于查找的文件 这是我在本地框中尝试相同操作时文件系统的层次结构 [1] Wordcount.py -> spark file [2] Temp.py -> external packages [3] files/ -you have some files which will be used by temp.py 更多详细信息: 当我运行WorkCount.py时,它会在其中导入temp.p

我有一份pyspark应用程序的EMR工作。我的代码包括一些外部包和一些用于查找的文件

这是我在本地框中尝试相同操作时文件系统的层次结构

[1] Wordcount.py -> spark file
[2] Temp.py -> external packages
[3] files/
        -you have some files which will be used by temp.py 
更多详细信息:
当我运行WorkCount.py时,它会在其中导入temp.py。“文件”文件夹包含一些模型文件。py在内部使用这些模型文件。在本地框中,我将所有代码保存在一个位置并运行作业,在那里工作正常
它在localbox中工作正常,但在集群中运行时失败

[1] No module temp found
[2] No *** file does not exist

有人能告诉我,我应该如何在EMR集群中组织该模块,以便能够顺利运行。

您可以压缩模块并将其添加到集群中,并使用
--py files'yourzip.zip'
将其分发到集群中。这就是您想要的吗?我已经尝试过了,但对我无效。我还必须在集群中安装pandas和其他软件包