Apache spark Spark:Spark submit通过Spark submit将熊猫之类的包发送到所有节点

Apache spark Spark:Spark submit通过Spark submit将熊猫之类的包发送到所有节点,apache-spark,pyspark,conda,Apache Spark,Pyspark,Conda,我有一份运行pyspark的spark工作。我可以传入一个脚本,它将使用任何其他参数(例如执行器内存、驱动程序内核)执行spark submit spark-test1.py--executor memory 10G--executor cores 4--driver memory 12G--driver cores 8 注意-我将在下面的示例中使用熊猫,但它不仅限于熊猫。可以是需要传递给每个节点的任意包或包数 当我的脚本中有命令import pandas as pd时,作业失败导入错误:没有名

我有一份运行pyspark的spark工作。我可以传入一个脚本,它将使用任何其他参数(例如执行器内存、驱动程序内核)执行
spark submit spark-test1.py--executor memory 10G--executor cores 4--driver memory 12G--driver cores 8

注意-我将在下面的示例中使用熊猫,但它不仅限于熊猫。可以是需要传递给每个节点的任意包或包数

当我的脚本中有命令
import pandas as pd
时,作业失败<代码>导入错误:没有名为panda的模块

现在,我可以传入某种类型的
--
参数来传递已安装pandas的conda环境,还是可以向panadas包添加路径


谢谢,

您可以使用--py files命令传递egg文件。所以你的命令看起来像-
spark submit spark-test1.py--executor memory 10G--executor cores 4--driver memory 12G--driver cores 8--py files

能否添加有关如何在egg文件中包含所有依赖项的详细信息?构建egg很简单,但是集群上的节点仍然需要安装所有依赖项。我假设您不想在每个节点上引导pip install命令来直接安装所有包。