Java 迭代作业期间的火花空间损耗
我们正在一个非常大的输入图上执行Spark java examples包中的PageRank示例。代码可用。Java 迭代作业期间的火花空间损耗,java,graph,apache-spark,pagerank,Java,Graph,Apache Spark,Pagerank,我们正在一个非常大的输入图上执行Spark java examples包中的PageRank示例。代码可用。 在执行过程中,框架每次迭代都会生成大量的中间数据(即contribs RDD)。中间数据是临时的,但Spark不会清除以前迭代的中间数据。也就是说,如果我们处于第二十次迭代的中间,所有先前迭代的所有临时数据(迭代0到19)仍然保留在TMP目录中。因此,tmp目录呈线性增长 在执行作业期间,我们如何强制Spark清除这些中间数据?也有同样的问题!。。。仅保留上一次迭代的数据似乎是合理的,因
在执行过程中,框架每次迭代都会生成大量的中间数据(即contribs RDD)。中间数据是临时的,但Spark不会清除以前迭代的中间数据。也就是说,如果我们处于第二十次迭代的中间,所有先前迭代的所有临时数据(迭代0到19)仍然保留在TMP目录中。因此,tmp目录呈线性增长
在执行作业期间,我们如何强制Spark清除这些中间数据?也有同样的问题!。。。仅保留上一次迭代的数据似乎是合理的,因为如果当前迭代失败,可以使用上一次迭代的中间数据继续作业。不管怎么说,为什么它要保留以前所有的中间数据??