Python PySpark依赖关系管理方法
您能给我解释一下以下向spark员工分发spark代码的方法的优缺点吗Python PySpark依赖关系管理方法,python,pyspark,dependency-management,Python,Pyspark,Dependency Management,您能给我解释一下以下向spark员工分发spark代码的方法的优缺点吗 。将--py files jobs.zip、libs.zip添加到spark submit命令中。其中,jobs.zip只是您的zip.py文件,而libs.zip是依赖项的.py文件,这些依赖项是根据pip安装-r要求构建的 。将--py files jobs.whl、dep1.whl、dep2.whl、…添加到spark submit命令中。与第一种方法类似,但不是zip,而是轮子文件,并且不是两个文件,而是与依赖项一样
--py files jobs.zip、libs.zip
添加到spark submit命令中。其中,jobs.zip
只是您的zip.py文件,而libs.zip
是依赖项的.py文件,这些依赖项是根据pip安装-r要求构建的
--py files jobs.whl、dep1.whl、dep2.whl、…
添加到spark submit命令中。与第一种方法类似,但不是zip,而是轮子文件,并且不是两个文件,而是与依赖项一样多的文件。轮子文件是使用pip Wheel-r requirements.txt构建的。您可以在提交脚本中动态生成控制盘文件列表