Java 不使用Spark-submit.sh时,Spark如何知道纱线资源管理器在哪里运行?
我是Spark的新手,我正在尝试从我的应用程序内部(不使用Spark submit.sh)以纱线集群模式启动一个Spark作业,我正在尝试弄清楚该作业是如何知道纱线资源管理器在哪里运行的。 我已经做了Java 不使用Spark-submit.sh时,Spark如何知道纱线资源管理器在哪里运行?,java,apache-spark,Java,Apache Spark,我是Spark的新手,我正在尝试从我的应用程序内部(不使用Spark submit.sh)以纱线集群模式启动一个Spark作业,我正在尝试弄清楚该作业是如何知道纱线资源管理器在哪里运行的。 我已经做了 SparkConf sConf = new SparkConf().setMaster("yarn-cluster").set("spark.driver.memory", "10g"); 但我无法配置的是Thread ResourceManager的位置。我该怎么做有什么想法吗?我有一个集群设
SparkConf sConf = new SparkConf().setMaster("yarn-cluster").set("spark.driver.memory", "10g");
但我无法配置的是Thread ResourceManager的位置。我该怎么做有什么想法吗?我有一个集群设置,其中纱线RM与应用程序不在同一台机器上运行。查看Spark Launcher API-
或者在这里阅读-属性可以在
warn site.xml
中找到,这些属性位于您的HADOOP\u CONF\u DIR
或warn\u CONF\u DIR
环境变量中,这些变量可以在操作系统级别设置,也可以在spark env.sh
中设置
在非HA部署中,您正在寻找
warn.resourcemanager.address
我知道spark submit脚本的功能非常类似于在工作节点上创建类路径等。但是spark API也支持设置类路径,尽管这有点繁琐。但我找不到的是如何设置纱线簇的位置。设置HADOOP_CONF_DIR环境变量有效吗?文档说明Spark将从HADOOP_CONF_DIR
或Thread_CONF_DIR
了解Thread ResourceManager(例如,Thread site.xml)。有关Spark docs的更多信息-