Apache spark PySpark中的LDA进程因最大迭代参数增加而失败_Apache Spark_Pyspark_Lda

Apache spark PySpark中的LDA进程因最大迭代参数增加而失败

apache-spark pyspark

Apache spark PySpark中的LDA进程因最大迭代参数增加而失败,apache-spark,pyspark,lda,Apache Spark,Pyspark,Lda,我使用Amazon EMR上的4个r3.4xlarge实例在大约300K个文档上运行LDA。使用k=800主题、小批量fraction=0.2和maxIter=20（或10），作业完成，但如果我将maxIter增加到30，例如，作业失败。我很难推理为什么增加最大迭代次数会导致作业失败。我尝试过使用检查点，但我不确定这会有什么帮助（而且Spark代码在这方面并不完全是自我记录的）。有人遇到过类似的问题吗？检查表：是否启用了检查点（setCheckpointInterval）如果是，是否设置

我使用Amazon EMR上的4个

r3.4xlarge

实例在大约300K个文档上运行LDA。使用

k=800

主题、小批量

fraction=0.2

和

maxIter=20

（或10），作业完成，但如果我将maxIter增加到30，例如，作业失败。我很难推理为什么增加最大迭代次数会导致作业失败。我尝试过使用检查点，但我不确定这会有什么帮助（而且Spark代码在这方面并不完全是自我记录的）。有人遇到过类似的问题吗？

检查表：

是否启用了检查点（
```
setCheckpointInterval
```
）
- 如果是，是否设置了检查点目录
  - 如果没有设置检查点目录：
```
sc.setCheckpointDir(...)
```
  - 如果是，请确认已实际写入检查点，并且设备上有足够的空间
- 如果没有，请启用检查点

检查表：

是否启用了检查点（
```
setCheckpointInterval
```
）
- 如果是，是否设置了检查点目录
  - 如果没有设置检查点目录：
```
sc.setCheckpointDir(...)
```
  - 如果是，请确认已实际写入检查点，并且设备上有足够的空间
- 如果没有，请启用检查点

我以前也遇到过类似的问题，但我也无法得到正确可靠的答案。我以前也遇到过类似的问题，我也无法得到正确可靠的答案。如果我在EMR上运行，我应该为目录指定S3路径还是像/home/…这样的本地路径？Docs：设置RDD将被检查的目录。如果在群集上运行，目录必须是HDFS路径，但我不确定S3是否是一个好的选择。不幸的是，这似乎没有解决问题。如果我在EMR上运行，我应该为目录或本地指定S3路径，如/home/…？Docs：设置RDD将被检查的目录。如果在集群上运行，目录必须是HDFS路径，但我不确定S3是否是一个好的选择。不幸的是，这似乎并没有解决这个问题。