Apache spark 将spark.jars预编到workers类路径
我的用例非常简单,我想覆盖Hadoop发行版中的几个类,为此我创建了一个新的jar,我使用spark.jars属性将其从驱动程序序列化到工作节点 为了确保我的新jar在workers类路径中具有优先权,我想将它们添加到spark.executor.extraClassPath属性中 但是,由于我正在使用spark.jar序列化这些jar,它们在worker中的路径是动态的,并且包括应用程序id和执行器id-Apache spark 将spark.jars预编到workers类路径,apache-spark,classpath,apache-spark-standalone,Apache Spark,Classpath,Apache Spark Standalone,我的用例非常简单,我想覆盖Hadoop发行版中的几个类,为此我创建了一个新的jar,我使用spark.jars属性将其从驱动程序序列化到工作节点 为了确保我的新jar在workers类路径中具有优先权,我想将它们添加到spark.executor.extraClassPath属性中 但是,由于我正在使用spark.jar序列化这些jar,它们在worker中的路径是动态的,并且包括应用程序id和执行器id-/ 有办法绕过它吗?可以在app dir中添加一个dir作为类路径中的第一个吗 使用Spa
/
有办法绕过它吗?可以在app dir中添加一个dir作为类路径中的第一个吗
使用Spark 2.4.5独立客户端模式-Docker
p、 我知道可以选择将jar添加到workers映像,然后将其添加到类路径,但是我必须随着每次代码更改不断更新映像。您可以在spark submit上启用此选项:
spark.driver.userClassPathFirst=True
我想你的意思是-spark.executor.userClassPathFirst。而文件对此并不清楚。“加载类时,用户添加的JAR优先于Spark自己的JAR…”用户添加的JAR意味着Spark.jars文件?您传递给Spark作业的JAR(使用--JAR)的优先级正好高于Spark自己的JAR。请注意,这个函数仍然是实验性的,但如果它解决了您的问题,您可以使用它。ATM唯一的缺点是它添加了所有内容,而不是一个jar。但这只是一个开始:)它解决了你的问题吗@LiranBo?