Pyspark 如何在EMR笔记本中安装.jar依赖项?
我正在运行一个EMR笔记本(平台:AWS,笔记本:jupyter,内核:PySpark)。 我需要安装一个.jar依赖项(Pyspark 如何在EMR笔记本中安装.jar依赖项?,pyspark,jupyter-notebook,dependencies,amazon-emr,Pyspark,Jupyter Notebook,Dependencies,Amazon Emr,我正在运行一个EMR笔记本(平台:AWS,笔记本:jupyter,内核:PySpark)。 我需要安装一个.jar依赖项(sparkdl)来处理一些映像 使用Spark submit,我可以使用: spark-submit --packages databricks:spark-deep-learning:1.5.0-spark2.4-s_2.11 spark = (SparkSession .config('spark.jars.packages', 'databri
sparkdl
)来处理一些映像
使用Spark submit,我可以使用:
spark-submit --packages databricks:spark-deep-learning:1.5.0-spark2.4-s_2.11
spark = (SparkSession
.config('spark.jars.packages', 'databricks:spark-deep-learning:1.5.0-spark2.4-s_2.11')
.getOrCreate()
)
使用本地笔记本,我可以使用:
spark-submit --packages databricks:spark-deep-learning:1.5.0-spark2.4-s_2.11
spark = (SparkSession
.config('spark.jars.packages', 'databricks:spark-deep-learning:1.5.0-spark2.4-s_2.11')
.getOrCreate()
)
但是如何在电子病历笔记本上做同样的事情呢
非常感谢你的帮助 首先,您可以在
configure
magic:
%%configure
{
"conf": {
"spark.jars.packages": "databricks:spark-deep-learning:1.5.0-spark2.4-s_2.11"
}
}
对于一般情况,这应该足够了。
如果您的EMR集群无法访问jar存储库,您可能希望手动将jar放入HDFS(假设您的jar位于/home/hadoop/libs/
)
e、 g
并在jars
指令中传递:
%%configure -f
{
"jars": ["/libs/spark-deep-learning-1.5.0-spark2.4-s_2.11.jar"]
}
此线程可能有助于: