Apache spark 在spark python中导入外部模块
我有一份pyspark应用程序的EMR工作。我的代码包括一些外部包和一些用于查找的文件 这是我在本地框中尝试相同操作时文件系统的层次结构Apache spark 在spark python中导入外部模块,apache-spark,pyspark,amazon-emr,spark-submit,Apache Spark,Pyspark,Amazon Emr,Spark Submit,我有一份pyspark应用程序的EMR工作。我的代码包括一些外部包和一些用于查找的文件 这是我在本地框中尝试相同操作时文件系统的层次结构 [1] Wordcount.py -> spark file [2] Temp.py -> external packages [3] files/ -you have some files which will be used by temp.py 更多详细信息: 当我运行WorkCount.py时,它会在其中导入temp.p
[1] Wordcount.py -> spark file
[2] Temp.py -> external packages
[3] files/
-you have some files which will be used by temp.py
更多详细信息:当我运行WorkCount.py时,它会在其中导入temp.py。“文件”文件夹包含一些模型文件。py在内部使用这些模型文件。在本地框中,我将所有代码保存在一个位置并运行作业,在那里工作正常
它在localbox中工作正常,但在集群中运行时失败
[1] No module temp found
[2] No *** file does not exist
有人能告诉我,我应该如何在EMR集群中组织该模块,以便能够顺利运行。您可以压缩模块并将其添加到集群中,并使用
--py files'yourzip.zip'
将其分发到集群中。这就是您想要的吗?我已经尝试过了,但对我无效。我还必须在集群中安装pandas和其他软件包