分发用于pyspark的罐子

分发用于pyspark的罐子,pyspark,Pyspark,我已经构建了一个可以从pyspark使用的jar,方法是将它添加到${SPARK\u HOME}/jars并使用 spark.\u sc.\u jvm.com.mypackage.myclass.mymethod() 然而,我想做的是将这个jar捆绑到一个pythonwheel中,以便有人可以在运行的pyspark/jupyter会话中安装一个jar。我不太熟悉python打包,是否可以在一个轮子中分发jar,并让pyspark自动使用该jar 我想把一个罐子放在一个轮子或鸡蛋里(甚至不确定我是

我已经构建了一个可以从pyspark使用的jar,方法是将它添加到
${SPARK\u HOME}/jars
并使用

spark.\u sc.\u jvm.com.mypackage.myclass.mymethod()

然而,我想做的是将这个jar捆绑到一个pythonwheel中,以便有人可以在运行的pyspark/jupyter会话中安装一个jar。我不太熟悉python打包,是否可以在一个轮子中分发jar,并让pyspark自动使用该jar

我想把一个罐子放在一个轮子或鸡蛋里(甚至不确定我是否能做到???),然后在安装了这个轮子/鸡蛋后,把罐子放在jvm可以使用的地方


我想我真正想问的是,我如何让人们更容易安装第三方jar并从pyspark使用它?

正如您前面提到的,希望您已经使用了--jars选项,并且能够在pyspark中使用函数。正确理解您的需求后,您希望在安装包中添加这个jar,以便集群的每个节点上都可以使用jar库

在databricks上有一个关于添加第三方jar文件的源代码pyspark-python-wheel-install。看看这是否是您正在查看的唯一信息


你的意思是在pyspark中使用Java UDF函数吗?不,与UDF无关谢谢你的回复,但不幸的是,它没有真正起到帮助作用,因为它没有提到我的特定用例。我想把一个罐子放在一个轮子或鸡蛋里(甚至不确定我能不能做到?),然后在安装了这个轮子/鸡蛋后,把罐子放在JVM可以使用的地方。