Configuration 为什么spark会在提交作业的机器中填充tmp(spark.local.dir)?
我有一个spark 1.2.1集群,在独立模式下设置,有一个主集群和几个从集群。然后我让我的数据科学家享受集群的力量 一切正常。然而,我的数据科学家用来提交spark作业的专用服务器spark.local.dir逐渐被填满了 考虑到这台机器位于集群之外,不是主机,也不是工作者/从机,我认为spark不会以任何方式使用local spark.local.dir。(为什么会这样?它只显示日志。)Configuration 为什么spark会在提交作业的机器中填充tmp(spark.local.dir)?,configuration,apache-spark,temp,Configuration,Apache Spark,Temp,我有一个spark 1.2.1集群,在独立模式下设置,有一个主集群和几个从集群。然后我让我的数据科学家享受集群的力量 一切正常。然而,我的数据科学家用来提交spark作业的专用服务器spark.local.dir逐渐被填满了 考虑到这台机器位于集群之外,不是主机,也不是工作者/从机,我认为spark不会以任何方式使用local spark.local.dir。(为什么会这样?它只显示日志。) 我找不到详细说明这部分信息的好文件。有人有想法吗?关于您的设置没有足够的信息可以确定,但我猜作业是在客户
我找不到详细说明这部分信息的好文件。有人有想法吗?关于您的设置没有足够的信息可以确定,但我猜作业是在客户端模式下启动的,驱动程序将位于客户端节点上 从spark文档: 在客户端模式下,驱动程序与提交应用程序的客户端在相同的过程中启动。然而,在集群模式下,驱动程序是从集群中的一个工作进程启动的,客户端进程在完成提交应用程序的职责后立即退出,而不必等待应用程序完成 我猜在客户端模式下,应用程序的驱动程序(在客户端机器上)需要大量的临时空间来管理这种情况下的其他工作人员