Dataproc不';t导入存储在Google云存储桶中的Python模块
我在谷歌云存储(GCS)存储桶上有以下结构: 我通过Dataproc作为pyspark作业运行Dataproc不';t导入存储在Google云存储桶中的Python模块,python,apache-spark,pyspark,python-import,google-cloud-dataproc,Python,Apache Spark,Pyspark,Python Import,Google Cloud Dataproc,我在谷歌云存储(GCS)存储桶上有以下结构: 我通过Dataproc作为pyspark作业运行wrapper.py,它在开始时使用import mymodule导入mymodule,但作业返回错误,表示没有名为mymodule的模块,即使它们位于同一路径上。但是,这在Unix环境中运行良好 请注意,\u init\uuuu.py为空。还从mymodule import myfunc测试了,但返回了相同的错误。能否提供pyspark作业提交命令? 我怀疑您没有传递“-py files”参数以向作业
wrapper.py
,它在开始时使用import mymodule
导入mymodule
,但作业返回错误,表示没有名为mymodule的模块,即使它们位于同一路径上。但是,这在Unix环境中运行良好
请注意,\u init\uuuu.py
为空。还从mymodule import myfunc测试了,但返回了相同的错误。能否提供pyspark作业提交命令?
我怀疑您没有传递“-py files”参数以向作业提供其他python文件。查阅参考资料。
Dataproc不会将同一GS存储桶中的文件作为作业的输入 谢谢你的回复。我正在使用这个作业提交命令-gcloud beta dataproc工作流模板add job pyspark gs://mybucket/py_scripts/wrapper.py--step id=01_python--workflow template=wf_template--region europe-west1--(params)。那么我应该如何在这个命令中传递另一个mymodule.py呢?还有,如果mymodule.py导入另一个脚本mymodule2.py等等,那么多个依赖项又如何呢。请检查讨论相同问题的stackoverflow问题
gs://my_bucket/py_scripts/
wrapper.py
mymodule.py
_init__.py