Configuration 为什么spark会在提交作业的机器中填充tmp（spark.local.dir）？_Configuration_Apache Spark_Temp

Configuration 为什么spark会在提交作业的机器中填充tmp（spark.local.dir）？

configuration apache-spark

Configuration 为什么spark会在提交作业的机器中填充tmp（spark.local.dir）？,configuration,apache-spark,temp,Configuration,Apache Spark,Temp,我有一个spark 1.2.1集群，在独立模式下设置，有一个主集群和几个从集群。然后我让我的数据科学家享受集群的力量一切正常。然而，我的数据科学家用来提交spark作业的专用服务器spark.local.dir逐渐被填满了考虑到这台机器位于集群之外，不是主机，也不是工作者/从机，我认为spark不会以任何方式使用local spark.local.dir。（为什么会这样？它只显示日志。）我找不到详细说明这部分信息的好文件。有人有想法吗？关于您的设置没有足够的信息可以确定，但我猜作业是在客户

我有一个spark 1.2.1集群，在独立模式下设置，有一个主集群和几个从集群。然后我让我的数据科学家享受集群的力量

一切正常。然而，我的数据科学家用来提交spark作业的专用服务器spark.local.dir逐渐被填满了

考虑到这台机器位于集群之外，不是主机，也不是工作者/从机，我认为spark不会以任何方式使用local spark.local.dir。（为什么会这样？它只显示日志。）

我找不到详细说明这部分信息的好文件。有人有想法吗？

关于您的设置没有足够的信息可以确定，但我猜作业是在客户端模式下启动的，驱动程序将位于客户端节点上

从spark文档：在客户端模式下，驱动程序与提交应用程序的客户端在相同的过程中启动。然而，在集群模式下，驱动程序是从集群中的一个工作进程启动的，客户端进程在完成提交应用程序的职责后立即退出，而不必等待应用程序完成

我猜在客户端模式下，应用程序的驱动程序（在客户端机器上）需要大量的临时空间来管理这种情况下的其他工作人员