Pyspark 如何在EMR笔记本中安装.jar依赖项?

Pyspark 如何在EMR笔记本中安装.jar依赖项?,pyspark,jupyter-notebook,dependencies,amazon-emr,Pyspark,Jupyter Notebook,Dependencies,Amazon Emr,我正在运行一个EMR笔记本(平台:AWS,笔记本:jupyter,内核:PySpark)。 我需要安装一个.jar依赖项(sparkdl)来处理一些映像 使用Spark submit,我可以使用: spark-submit --packages databricks:spark-deep-learning:1.5.0-spark2.4-s_2.11 spark = (SparkSession .config('spark.jars.packages', 'databri

我正在运行一个EMR笔记本(平台:AWS,笔记本:jupyter,内核:PySpark)。 我需要安装一个.jar依赖项(
sparkdl
)来处理一些映像

使用Spark submit,我可以使用:

spark-submit --packages databricks:spark-deep-learning:1.5.0-spark2.4-s_2.11
spark = (SparkSession
            .config('spark.jars.packages', 'databricks:spark-deep-learning:1.5.0-spark2.4-s_2.11')
            .getOrCreate()
)
使用本地笔记本,我可以使用:

spark-submit --packages databricks:spark-deep-learning:1.5.0-spark2.4-s_2.11
spark = (SparkSession
            .config('spark.jars.packages', 'databricks:spark-deep-learning:1.5.0-spark2.4-s_2.11')
            .getOrCreate()
)
但是如何在电子病历笔记本上做同样的事情呢

  • 或者我可以使用引导程序在每个节点上安装它。但我不知道如何继续
  • 我可以将SparkSession配置为使用依赖项。但是笔记本似乎无法访问存储库…而且我不知道如何让它加载复制到S3存储桶上的文件
  • 编辑: 我试过了

    这没有抛出任何错误,但我仍然无法使用它。当我尝试导入sparkdl时,我得到了ModuleNotFoundError:没有名为“sparkdl”的模块


    非常感谢你的帮助

    首先,您可以在
    configure
    magic:

    %%configure
    { 
        "conf": {
            "spark.jars.packages": "databricks:spark-deep-learning:1.5.0-spark2.4-s_2.11" 
        }
    }
    
    对于一般情况,这应该足够了。 如果您的EMR集群无法访问jar存储库,您可能希望手动将jar放入HDFS(假设您的jar位于
    /home/hadoop/libs/

    e、 g

    并在
    jars
    指令中传递:

    %%configure -f
    { 
        "jars": ["/libs/spark-deep-learning-1.5.0-spark2.4-s_2.11.jar"]
    }
    
    此线程可能有助于: