Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark PySpark中的LDA进程因最大迭代参数增加而失败_Apache Spark_Pyspark_Lda - Fatal编程技术网

Apache spark PySpark中的LDA进程因最大迭代参数增加而失败

Apache spark PySpark中的LDA进程因最大迭代参数增加而失败,apache-spark,pyspark,lda,Apache Spark,Pyspark,Lda,我使用Amazon EMR上的4个r3.4xlarge实例在大约300K个文档上运行LDA。使用k=800主题、小批量fraction=0.2和maxIter=20(或10),作业完成,但如果我将maxIter增加到30,例如,作业失败。我很难推理为什么增加最大迭代次数会导致作业失败。我尝试过使用检查点,但我不确定这会有什么帮助(而且Spark代码在这方面并不完全是自我记录的)。有人遇到过类似的问题吗?检查表: 是否启用了检查点(setCheckpointInterval) 如果是,是否设置

我使用Amazon EMR上的4个
r3.4xlarge
实例在大约300K个文档上运行LDA。使用
k=800
主题、小批量
fraction=0.2
maxIter=20
(或10),作业完成,但如果我将maxIter增加到30,例如,作业失败。我很难推理为什么增加最大迭代次数会导致作业失败。我尝试过使用检查点,但我不确定这会有什么帮助(而且Spark代码在这方面并不完全是自我记录的)。有人遇到过类似的问题吗?

检查表:

  • 是否启用了检查点(
    setCheckpointInterval

    • 如果是,是否设置了检查点目录

      • 如果没有设置检查点目录:

        sc.setCheckpointDir(...)
        
      • 如果是,请确认已实际写入检查点,并且设备上有足够的空间

    • 如果没有,请启用检查点

检查表:

  • 是否启用了检查点(
    setCheckpointInterval

    • 如果是,是否设置了检查点目录

      • 如果没有设置检查点目录:

        sc.setCheckpointDir(...)
        
      • 如果是,请确认已实际写入检查点,并且设备上有足够的空间

    • 如果没有,请启用检查点


我以前也遇到过类似的问题,但我也无法得到正确可靠的答案。我以前也遇到过类似的问题,我也无法得到正确可靠的答案。如果我在EMR上运行,我应该为目录指定S3路径还是像/home/…这样的本地路径?Docs:设置RDD将被检查的目录。如果在群集上运行,目录必须是HDFS路径,但我不确定S3是否是一个好的选择。不幸的是,这似乎没有解决问题。如果我在EMR上运行,我应该为目录或本地指定S3路径,如/home/…?Docs:设置RDD将被检查的目录。如果在集群上运行,目录必须是HDFS路径,但我不确定S3是否是一个好的选择。不幸的是,这似乎并没有解决这个问题。