Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 提交spark前pyspark作业的安装要求_Python_Apache Spark_Pyspark_Virtualenv_Dependency Management - Fatal编程技术网

Python 提交spark前pyspark作业的安装要求

Python 提交spark前pyspark作业的安装要求,python,apache-spark,pyspark,virtualenv,dependency-management,Python,Apache Spark,Pyspark,Virtualenv,Dependency Management,我想在Spark集群上运行Python应用程序,通过Spark submit将其发送到那里。该应用程序有几个依赖项,例如pandas,numpy,scikit-learn。提交作业之前,什么是确保安装依赖项的干净方法 正如我使用virtualenv进行开发一样,可以很容易地生成requirements.txt 您必须在群集模式下运行作业。假设您使用纱线作为调度程序 spark-submit --master yarn-cluster my_script.py --py-files my_depe

我想在Spark集群上运行Python应用程序,通过
Spark submit
将其发送到那里。该应用程序有几个依赖项,例如
pandas
numpy
scikit-learn
。提交作业之前,什么是确保安装依赖项的干净方法


正如我使用virtualenv进行开发一样,可以很容易地生成
requirements.txt

您必须在群集模式下运行作业。假设您使用纱线作为调度程序

spark-submit --master yarn-cluster my_script.py --py-files my_dependency.zip
也可以尝试以下方法

from sklearn import grid_search, datasets
from sklearn.ensemble import RandomForestClassifier
from sklearn.grid_search import GridSearchCV
关于熊猫,如果您有确切的数据结构,可以调用
toPandas()


numpy通常集成到许多pyspark调用中,但不确定这一点

s
停车提交
!我是否需要手动将所有依赖项(numpy、scipy、scikit learn、pandas…)打包到
my_dependency.zip
?我是否可以传递一个需求列表并依赖于
pip