Pyspark 如何在EMR笔记本中安装.jar依赖项？_Pyspark_Jupyter Notebook_Dependencies_Amazon Emr

Pyspark 如何在EMR笔记本中安装.jar依赖项？

pyspark jupyter-notebook dependencies

Pyspark 如何在EMR笔记本中安装.jar依赖项？,pyspark,jupyter-notebook,dependencies,amazon-emr,Pyspark,Jupyter Notebook,Dependencies,Amazon Emr,我正在运行一个EMR笔记本（平台：AWS，笔记本：jupyter，内核：PySpark）。我需要安装一个.jar依赖项（sparkdl）来处理一些映像使用Spark submit，我可以使用： spark-submit --packages databricks:spark-deep-learning:1.5.0-spark2.4-s_2.11 spark = (SparkSession .config('spark.jars.packages', 'databri

我正在运行一个EMR笔记本（平台：AWS，笔记本：jupyter，内核：PySpark）。我需要安装一个.jar依赖项（

sparkdl

）来处理一些映像

使用Spark submit，我可以使用：

spark-submit --packages databricks:spark-deep-learning:1.5.0-spark2.4-s_2.11

spark = (SparkSession
            .config('spark.jars.packages', 'databricks:spark-deep-learning:1.5.0-spark2.4-s_2.11')
            .getOrCreate()
)

使用本地笔记本，我可以使用：

spark-submit --packages databricks:spark-deep-learning:1.5.0-spark2.4-s_2.11

spark = (SparkSession
            .config('spark.jars.packages', 'databricks:spark-deep-learning:1.5.0-spark2.4-s_2.11')
            .getOrCreate()
)

但是如何在电子病历笔记本上做同样的事情呢

或者我可以使用引导程序在每个节点上安装它。但我不知道如何继续

我可以将SparkSession配置为使用依赖项。但是笔记本似乎无法访问存储库…而且我不知道如何让它加载复制到S3存储桶上的文件

编辑：我试过了

这没有抛出任何错误，但我仍然无法使用它。当我尝试导入sparkdl时，我得到了ModuleNotFoundError：没有名为“sparkdl”的模块

非常感谢你的帮助

首先，您可以在

configure

magic:

%%configure
{ 
    "conf": {
        "spark.jars.packages": "databricks:spark-deep-learning:1.5.0-spark2.4-s_2.11" 
    }
}

对于一般情况，这应该足够了。如果您的EMR集群无法访问jar存储库，您可能希望手动将jar放入HDFS（假设您的jar位于

/home/hadoop/libs/

）

e、 g

并在

jars

指令中传递：

%%configure -f
{ 
    "jars": ["/libs/spark-deep-learning-1.5.0-spark2.4-s_2.11.jar"]
}

此线程可能有助于：