Python 提交spark前pyspark作业的安装要求
我想在Spark集群上运行Python应用程序,通过Python 提交spark前pyspark作业的安装要求,python,apache-spark,pyspark,virtualenv,dependency-management,Python,Apache Spark,Pyspark,Virtualenv,Dependency Management,我想在Spark集群上运行Python应用程序,通过Spark submit将其发送到那里。该应用程序有几个依赖项,例如pandas,numpy,scikit-learn。提交作业之前,什么是确保安装依赖项的干净方法 正如我使用virtualenv进行开发一样,可以很容易地生成requirements.txt 您必须在群集模式下运行作业。假设您使用纱线作为调度程序 spark-submit --master yarn-cluster my_script.py --py-files my_depe
Spark submit
将其发送到那里。该应用程序有几个依赖项,例如pandas
,numpy
,scikit-learn
。提交作业之前,什么是确保安装依赖项的干净方法
正如我使用virtualenv进行开发一样,可以很容易地生成
requirements.txt
您必须在群集模式下运行作业。假设您使用纱线作为调度程序
spark-submit --master yarn-cluster my_script.py --py-files my_dependency.zip
也可以尝试以下方法
from sklearn import grid_search, datasets
from sklearn.ensemble import RandomForestClassifier
from sklearn.grid_search import GridSearchCV
关于熊猫,如果您有确切的数据结构,可以调用toPandas()
numpy通常集成到许多pyspark调用中,但不确定这一点 s
停车提交
!我是否需要手动将所有依赖项(numpy、scipy、scikit learn、pandas…)打包到my_dependency.zip
?我是否可以传递一个需求列表并依赖于pip
?