Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Configuration 为什么spark会在提交作业的机器中填充tmp(spark.local.dir)?_Configuration_Apache Spark_Temp - Fatal编程技术网

Configuration 为什么spark会在提交作业的机器中填充tmp(spark.local.dir)?

Configuration 为什么spark会在提交作业的机器中填充tmp(spark.local.dir)?,configuration,apache-spark,temp,Configuration,Apache Spark,Temp,我有一个spark 1.2.1集群,在独立模式下设置,有一个主集群和几个从集群。然后我让我的数据科学家享受集群的力量 一切正常。然而,我的数据科学家用来提交spark作业的专用服务器spark.local.dir逐渐被填满了 考虑到这台机器位于集群之外,不是主机,也不是工作者/从机,我认为spark不会以任何方式使用local spark.local.dir。(为什么会这样?它只显示日志。) 我找不到详细说明这部分信息的好文件。有人有想法吗?关于您的设置没有足够的信息可以确定,但我猜作业是在客户

我有一个spark 1.2.1集群,在独立模式下设置,有一个主集群和几个从集群。然后我让我的数据科学家享受集群的力量

一切正常。然而,我的数据科学家用来提交spark作业的专用服务器spark.local.dir逐渐被填满了

考虑到这台机器位于集群之外,不是主机,也不是工作者/从机,我认为spark不会以任何方式使用local spark.local.dir。(为什么会这样?它只显示日志。)


我找不到详细说明这部分信息的好文件。有人有想法吗?

关于您的设置没有足够的信息可以确定,但我猜作业是在客户端模式下启动的,驱动程序将位于客户端节点上

从spark文档: 在客户端模式下,驱动程序与提交应用程序的客户端在相同的过程中启动。然而,在集群模式下,驱动程序是从集群中的一个工作进程启动的,客户端进程在完成提交应用程序的职责后立即退出,而不必等待应用程序完成

我猜在客户端模式下,应用程序的驱动程序(在客户端机器上)需要大量的临时空间来管理这种情况下的其他工作人员