Python 提交spark前pyspark作业的安装要求_Python_Apache Spark_Pyspark_Virtualenv_Dependency Management

Python 提交spark前pyspark作业的安装要求

python apache-spark pyspark

Python 提交spark前pyspark作业的安装要求,python,apache-spark,pyspark,virtualenv,dependency-management,Python,Apache Spark,Pyspark,Virtualenv,Dependency Management,我想在Spark集群上运行Python应用程序，通过Spark submit将其发送到那里。该应用程序有几个依赖项，例如pandas，numpy，scikit-learn。提交作业之前，什么是确保安装依赖项的干净方法正如我使用virtualenv进行开发一样，可以很容易地生成requirements.txt 您必须在群集模式下运行作业。假设您使用纱线作为调度程序 spark-submit --master yarn-cluster my_script.py --py-files my_depe

我想在Spark集群上运行Python应用程序，通过

Spark submit

将其发送到那里。该应用程序有几个依赖项，例如

pandas

，

numpy

，

scikit-learn

。提交作业之前，什么是确保安装依赖项的干净方法

正如我使用virtualenv进行开发一样，可以很容易地生成

requirements.txt

您必须在群集模式下运行作业。假设您使用纱线作为调度程序

spark-submit --master yarn-cluster my_script.py --py-files my_dependency.zip

也可以尝试以下方法

from sklearn import grid_search, datasets
from sklearn.ensemble import RandomForestClassifier
from sklearn.grid_search import GridSearchCV

关于熊猫，如果您有确切的数据结构，可以调用

toPandas（）

numpy通常集成到许多pyspark调用中，但不确定这一点

停车提交

！我是否需要手动将所有依赖项（numpy、scipy、scikit learn、pandas…）打包到

my_dependency.zip

？我是否可以传递一个需求列表并依赖于

pip

？