Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 优化PySpark'中主题计数的困惑度或对数可能性;s LDA_Apache Spark_Pyspark_Lda_Topic Modeling - Fatal编程技术网

Apache spark 优化PySpark'中主题计数的困惑度或对数可能性;s LDA

Apache spark 优化PySpark'中主题计数的困惑度或对数可能性;s LDA,apache-spark,pyspark,lda,topic-modeling,Apache Spark,Pyspark,Lda,Topic Modeling,我正在尝试使用PySpark来识别一些数据集中的“好”数量的主题(例如tweets),并且有几种方法可以完成这项任务(参见示例) 不过,我的问题是关于PySpark.ml.clustering.LDA附带的LogComplexity和LogLikelion函数报告的值。我的理解是,随着话题数量的增加,我会看到困惑减少,对数似然值增加。我在gensim中使用相同的模型参数看到了这种行为 然而,在PySpark中,随着主题的增加,日志困惑返回的值增加,日志可能性降低。这些结果似乎与我对这些价值观的理

我正在尝试使用PySpark来识别一些数据集中的“好”数量的主题(例如tweets),并且有几种方法可以完成这项任务(参见示例)

不过,我的问题是关于PySpark.ml.clustering.LDA附带的LogComplexity和LogLikelion函数报告的值。我的理解是,随着话题数量的增加,我会看到困惑减少,对数似然值增加。我在gensim中使用相同的模型参数看到了这种行为

然而,在PySpark中,随着主题的增加,日志困惑返回的值增加,日志可能性降低。这些结果似乎与我对这些价值观的理解背道而驰

我是否遗漏了PySpark的LDA模型的一些基本方面?任何帮助都将不胜感激!我已经包括了一份我用来运行这些测试的Jupyter笔记本的副本,所以你可以看到我的结果


提前谢谢

你找到答案了吗?我开始在pyspark与LDA合作,我将开始探索同样的问题。你有gensim中的代码吗,这样我就可以用我的数据来尝试它了?没有,Spark邮件列表或这里没有答案。正如你可能想象的那样,我最终在Gensim做了我的分析。但是我没有发布那个代码。你找到答案了吗?我开始在pyspark与LDA合作,我将开始探索同样的问题。你有gensim中的代码吗,这样我就可以用我的数据来尝试它了?没有,Spark邮件列表或这里没有答案。正如你可能想象的那样,我最终在Gensim做了我的分析。但是我没有发布这些代码。