Apache spark 在Spark Submit over纱线簇中手动设置驱动器

Apache spark 在Spark Submit over纱线簇中手动设置驱动器,apache-spark,pyspark,yarn,Apache Spark,Pyspark,Yarn,我注意到,当我在spark submit中使用Thread启动作业时,驱动程序和执行程序节点会被随机设置。是否可以手动设置,以便在收集数据并将其写入文件时,每次都可以将其写入同一个节点 到目前为止,我尝试使用的参数是: spark.swean.am.port 及 spark.driver.hostname 谢谢 如果您使用--master warn--deploy mode client提交到纱线,则驱动程序将位于您提交的节点上 您还可以使用以下属性为执行器配置节点标签:spark.wa

我注意到,当我在spark submit中使用Thread启动作业时,驱动程序和执行程序节点会被随机设置。是否可以手动设置,以便在收集数据并将其写入文件时,每次都可以将其写入同一个节点

到目前为止,我尝试使用的参数是:

spark.swean.am.port

spark.driver.hostname


谢谢

如果您使用
--master warn--deploy mode client
提交到纱线,则驱动程序将位于您提交的节点上

您还可以使用以下属性为执行器配置节点标签:
spark.warn.executor.nodeLabelExpression

将在上调度限制节点执行器集的纱线节点标签表达式。只有大于或等于2.6的纱线版本才支持节点标签表达式,因此在针对早期版本运行时,将忽略此属性


文档-

如果您使用
--master warn--deploy mode client
提交到纱线,则驱动程序将位于您提交的节点上

您还可以使用以下属性为执行器配置节点标签:
spark.warn.executor.nodeLabelExpression

将在上调度限制节点执行器集的纱线节点标签表达式。只有大于或等于2.6的纱线版本才支持节点标签表达式,因此在针对早期版本运行时,将忽略此属性


Docs-

spark群集可以在Yancluster或Thread客户端模式下运行

在纱线集群模式下,Spark驱动程序在由集群上的纱线管理的应用程序主进程内运行,启动应用程序后,客户机可以离开

在客户机模式下,驱动程序在客户机中运行 进程,而应用程序主控程序仅用于从应用程序请求资源


如您所见,根据模式的不同,spark会拾取应用程序主机。直到这个阶段它才随机发生。但是,应用程序主机请求资源管理器执行任务的工作节点将根据工作节点的可用性随机选择。

spark群集可以在Yancluster或Thread客户端模式下运行

在纱线集群模式下,Spark驱动程序在由集群上的纱线管理的应用程序主进程内运行,启动应用程序后,客户机可以离开

在客户机模式下,驱动程序在客户机中运行 进程,而应用程序主控程序仅用于从应用程序请求资源

如您所见,根据模式的不同,spark会拾取应用程序主机。直到这个阶段它才随机发生。但是,应用程序主节点请求资源管理器执行任务的工作节点将根据工作节点的可用性随机选择