Apache spark 在spark python中导入外部模块_Apache Spark_Pyspark_Amazon Emr_Spark Submit

Apache spark 在spark python中导入外部模块

apache-spark pyspark

Apache spark 在spark python中导入外部模块,apache-spark,pyspark,amazon-emr,spark-submit,Apache Spark,Pyspark,Amazon Emr,Spark Submit,我有一份pyspark应用程序的EMR工作。我的代码包括一些外部包和一些用于查找的文件这是我在本地框中尝试相同操作时文件系统的层次结构 [1] Wordcount.py -> spark file [2] Temp.py -> external packages [3] files/ -you have some files which will be used by temp.py 更多详细信息：当我运行WorkCount.py时，它会在其中导入temp.p

我有一份pyspark应用程序的EMR工作。我的代码包括一些外部包和一些用于查找的文件

这是我在本地框中尝试相同操作时文件系统的层次结构

[1] Wordcount.py -> spark file
[2] Temp.py -> external packages
[3] files/
        -you have some files which will be used by temp.py

更多详细信息：
当我运行WorkCount.py时，它会在其中导入temp.py。“文件”文件夹包含一些模型文件。py在内部使用这些模型文件。在本地框中，我将所有代码保存在一个位置并运行作业，在那里工作正常
它在localbox中工作正常，但在集群中运行时失败

[1] No module temp found
[2] No *** file does not exist

有人能告诉我，我应该如何在EMR集群中组织该模块，以便能够顺利运行。

您可以压缩模块并将其添加到集群中，并使用

--py files'yourzip.zip'

将其分发到集群中。这就是您想要的吗？我已经尝试过了，但对我无效。我还必须在集群中安装pandas和其他软件包