Python PySpark依赖关系管理方法

Python PySpark依赖关系管理方法,python,pyspark,dependency-management,Python,Pyspark,Dependency Management,您能给我解释一下以下向spark员工分发spark代码的方法的优缺点吗 。将--py files jobs.zip、libs.zip添加到spark submit命令中。其中,jobs.zip只是您的zip.py文件,而libs.zip是依赖项的.py文件,这些依赖项是根据pip安装-r要求构建的 。将--py files jobs.whl、dep1.whl、dep2.whl、…添加到spark submit命令中。与第一种方法类似,但不是zip,而是轮子文件,并且不是两个文件,而是与依赖项一样

您能给我解释一下以下向spark员工分发spark代码的方法的优缺点吗

  • 。将
    --py files jobs.zip、libs.zip
    添加到spark submit命令中。其中,
    jobs.zip
    只是您的zip.py文件,而
    libs.zip
    是依赖项的.py文件,这些依赖项是根据
    pip安装-r要求构建的
  • 。将
    --py files jobs.whl、dep1.whl、dep2.whl、…
    添加到spark submit命令中。与第一种方法类似,但不是zip,而是轮子文件,并且不是两个文件,而是与依赖项一样多的文件。轮子文件是使用
    pip Wheel-r requirements.txt构建的。您可以在提交脚本中动态生成控制盘文件列表
  • 使用第二种方法比第一种方法有什么好处?还有第三种选择比前两种更好吗