Pyspark 通过livy传递HDFS上的python模块

Pyspark 通过livy传递HDFS上的python模块,pyspark,hdfs,python-module,livy,Pyspark,Hdfs,Python Module,Livy,在HDFS中的/user/usr1/路径上,我放置了两个脚本pySparkScript.py和relatedModule.py。relatedModule.py是一个python模块,它将被导入pySparkScript.py 我可以使用spark submit pySparkScript.py运行脚本 但是,我需要通过Livy运行这些脚本。通常,我会成功运行单个脚本,如下所示: curl -H "Content-Type:application/json" -X POST -d '{"file

在HDFS中的/user/usr1/路径上,我放置了两个脚本pySparkScript.py和relatedModule.py。relatedModule.py是一个python模块,它将被导入pySparkScript.py

我可以使用spark submit pySparkScript.py运行脚本

但是,我需要通过Livy运行这些脚本。通常,我会成功运行单个脚本,如下所示:

curl -H "Content-Type:application/json" -X POST -d '{"file": "/user/usr1/pySparkScript.py"}' livyNodeAddress/batches
但是,当我运行上述代码时,一旦导入relatedModule.py,它就会失败。我意识到我应该在Livy的参数中给出相关模块的路径。我尝试了以下选项:

curl -H "Content-Type:application/json" -X POST -d '{"file": "/user/usr1/pySparkScript.py", "files": ["/user/usr1/relatedModule.py"]}' livyNodeAddress/batches
如何将这两个文件传递给Livy?

尝试使用pyFiles属性。 请参阅