Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/384.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 迭代作业期间的火花空间损耗_Java_Graph_Apache Spark_Pagerank - Fatal编程技术网

Java 迭代作业期间的火花空间损耗

Java 迭代作业期间的火花空间损耗,java,graph,apache-spark,pagerank,Java,Graph,Apache Spark,Pagerank,我们正在一个非常大的输入图上执行Spark java examples包中的PageRank示例。代码可用。 在执行过程中,框架每次迭代都会生成大量的中间数据(即contribs RDD)。中间数据是临时的,但Spark不会清除以前迭代的中间数据。也就是说,如果我们处于第二十次迭代的中间,所有先前迭代的所有临时数据(迭代0到19)仍然保留在TMP目录中。因此,tmp目录呈线性增长 在执行作业期间,我们如何强制Spark清除这些中间数据?也有同样的问题!。。。仅保留上一次迭代的数据似乎是合理的,因

我们正在一个非常大的输入图上执行Spark java examples包中的PageRank示例。代码可用。

在执行过程中,框架每次迭代都会生成大量的中间数据(即contribs RDD)。中间数据是临时的,但Spark不会清除以前迭代的中间数据。也就是说,如果我们处于第二十次迭代的中间,所有先前迭代的所有临时数据(迭代0到19)仍然保留在TMP目录中。因此,tmp目录呈线性增长


在执行作业期间,我们如何强制Spark清除这些中间数据?也有同样的问题!。。。仅保留上一次迭代的数据似乎是合理的,因为如果当前迭代失败,可以使用上一次迭代的中间数据继续作业。不管怎么说,为什么它要保留以前所有的中间数据??