Java 迭代作业期间的火花空间损耗_Java_Graph_Apache Spark_Pagerank

Java 迭代作业期间的火花空间损耗

java graph apache-spark

Java 迭代作业期间的火花空间损耗,java,graph,apache-spark,pagerank,Java,Graph,Apache Spark,Pagerank,我们正在一个非常大的输入图上执行Spark java examples包中的PageRank示例。代码可用。在执行过程中，框架每次迭代都会生成大量的中间数据（即contribs RDD）。中间数据是临时的，但Spark不会清除以前迭代的中间数据。也就是说，如果我们处于第二十次迭代的中间，所有先前迭代的所有临时数据（迭代0到19）仍然保留在TMP目录中。因此，tmp目录呈线性增长在执行作业期间，我们如何强制Spark清除这些中间数据？也有同样的问题！。。。仅保留上一次迭代的数据似乎是合理的，因

我们正在一个非常大的输入图上执行Spark java examples包中的PageRank示例。代码可用。

在执行过程中，框架每次迭代都会生成大量的中间数据（即contribs RDD）。中间数据是临时的，但Spark不会清除以前迭代的中间数据。也就是说，如果我们处于第二十次迭代的中间，所有先前迭代的所有临时数据（迭代0到19）仍然保留在TMP目录中。因此，tmp目录呈线性增长

在执行作业期间，我们如何强制Spark清除这些中间数据？也有同样的问题！。。。仅保留上一次迭代的数据似乎是合理的，因为如果当前迭代失败，可以使用上一次迭代的中间数据继续作业。不管怎么说，为什么它要保留以前所有的中间数据？？