Scala SPARK MLlib检查点不从本地磁盘删除洗牌文件

Scala SPARK MLlib检查点不从本地磁盘删除洗牌文件,scala,apache-spark,apache-spark-mllib,lda,Scala,Apache Spark,Apache Spark Mllib,Lda,我正在将MLlib LDA应用于主题建模。我正在设置lda参数,如下所示: lda.setOptimizer(optimizer) .setK(params.k) .setMaxIterations(params.maxIterations) .setDocConcentration(params.docConcentration) .setTopicConcentration(params.topicConcentration) .setCheckpointInterval

我正在将MLlib LDA应用于主题建模。我正在设置lda参数,如下所示:

lda.setOptimizer(optimizer)
  .setK(params.k)
  .setMaxIterations(params.maxIterations)
  .setDocConcentration(params.docConcentration)
  .setTopicConcentration(params.topicConcentration)
  .setCheckpointInterval(params.checkpointInterval)
  if (params.checkpointDir.nonEmpty) {
      sc.setCheckpointDir(params.checkpointDir.get)
  }
spark-submit --driver-memory 14G --class com.mycompany.spark.ml.topicmodelling.LDAExample ./target/scala-2.10/lda-assembly-1.0.jar path/to/copurs/file --k 100 --maxIterations 100 --checkpointDir /path/to/checkpoints/directory --checkpointInterval 1
我在本地MacOS机器上运行LDA算法,该机器有800000个英文文本文档(总大小为9GB),我的机器有8个内核,16GB或RAM,500GB或硬盘

以下是我的Spark配置:

val conf = new SparkConf().setMaster("local[6]").setAppName("LDAExample")
val sc = new SparkContext(conf)
当使用大量迭代(100)调用LDA时(即,通过调用
val ldaModel=LDA.run(corpus)
),算法开始在磁盘上创建随机文件,直到磁盘充满空间为止

我使用spark submit运行我的程序,如下所示:

lda.setOptimizer(optimizer)
  .setK(params.k)
  .setMaxIterations(params.maxIterations)
  .setDocConcentration(params.docConcentration)
  .setTopicConcentration(params.topicConcentration)
  .setCheckpointInterval(params.checkpointInterval)
  if (params.checkpointDir.nonEmpty) {
      sc.setCheckpointDir(params.checkpointDir.get)
  }
spark-submit --driver-memory 14G --class com.mycompany.spark.ml.topicmodelling.LDAExample ./target/scala-2.10/lda-assembly-1.0.jar path/to/copurs/file --k 100 --maxIterations 100 --checkpointDir /path/to/checkpoints/directory --checkpointInterval 1
其中“K”是要提取的主题数,当迭代次数和主题数很小时,一切都很好,但当迭代次数很大(如100)时,无论--checkpointInterval的值是多少,现象都是一样的:大约25次迭代后磁盘将填满

一切似乎都正常运行,检查点文件在我的磁盘上创建,但洗牌文件根本没有删除

我使用的是Spark和MLLIB1.5.0,我的机器是MacYosemite 10.10.5

非常感谢您的帮助。 谢谢