Apache spark 优化PySpark'中主题计数的困惑度或对数可能性；s LDA_Apache Spark_Pyspark_Lda_Topic Modeling

Apache spark 优化PySpark'中主题计数的困惑度或对数可能性；s LDA

apache-spark pyspark

Apache spark 优化PySpark'中主题计数的困惑度或对数可能性；s LDA,apache-spark,pyspark,lda,topic-modeling,Apache Spark,Pyspark,Lda,Topic Modeling,我正在尝试使用PySpark来识别一些数据集中的“好”数量的主题（例如tweets），并且有几种方法可以完成这项任务（参见示例）不过，我的问题是关于PySpark.ml.clustering.LDA附带的LogComplexity和LogLikelion函数报告的值。我的理解是，随着话题数量的增加，我会看到困惑减少，对数似然值增加。我在gensim中使用相同的模型参数看到了这种行为然而，在PySpark中，随着主题的增加，日志困惑返回的值增加，日志可能性降低。这些结果似乎与我对这些价值观的理

我正在尝试使用PySpark来识别一些数据集中的“好”数量的主题（例如tweets），并且有几种方法可以完成这项任务（参见示例）

不过，我的问题是关于PySpark.ml.clustering.LDA附带的LogComplexity和LogLikelion函数报告的值。我的理解是，随着话题数量的增加，我会看到困惑减少，对数似然值增加。我在gensim中使用相同的模型参数看到了这种行为

然而，在PySpark中，随着主题的增加，日志困惑返回的值增加，日志可能性降低。这些结果似乎与我对这些价值观的理解背道而驰

我是否遗漏了PySpark的LDA模型的一些基本方面？任何帮助都将不胜感激！我已经包括了一份我用来运行这些测试的Jupyter笔记本的副本，所以你可以看到我的结果

提前谢谢

你找到答案了吗？我开始在pyspark与LDA合作，我将开始探索同样的问题。你有gensim中的代码吗，这样我就可以用我的数据来尝试它了？没有，Spark邮件列表或这里没有答案。正如你可能想象的那样，我最终在Gensim做了我的分析。但是我没有发布那个代码。你找到答案了吗？我开始在pyspark与LDA合作，我将开始探索同样的问题。你有gensim中的代码吗，这样我就可以用我的数据来尝试它了？没有，Spark邮件列表或这里没有答案。正如你可能想象的那样，我最终在Gensim做了我的分析。但是我没有发布这些代码。