Scikit learn 文本簇中的关键字数_Scikit Learn_Cluster Analysis_Lda_Nmf

Scikit learn 文本簇中的关键字数

scikit-learn

Scikit learn 文本簇中的关键字数,scikit-learn,cluster-analysis,lda,nmf,Scikit Learn,Cluster Analysis,Lda,Nmf,我在一个大小适中的数据集中工作，希望确定哪些主题是有意义的。我使用了NMF和LDA（sklearn实现），但关键问题是：什么是成功的合适衡量标准。从视觉上看，我在许多主题中只有几个身高权重关键字（其他权重~0），还有几个主题的主题分布更钟形。目标是什么：一个只有几个单词的主题，高权重，低休息（尖峰）或钟形分布，在一个大的关键字上逐渐减少权重 NMF 还是LDA方法这主要是一个钟形（显然不是曲线）我还使用了加权jaccard（设置关键字重叠，加权；毫无疑问有更好的方法，但这是一种直观的方法

我在一个大小适中的数据集中工作，希望确定哪些主题是有意义的。我使用了NMF和LDA（sklearn实现），但关键问题是：什么是成功的合适衡量标准。从视觉上看，我在许多主题中只有几个身高权重关键字（其他权重~0），还有几个主题的主题分布更钟形。目标是什么：一个只有几个单词的主题，高权重，低休息（尖峰）或钟形分布，在一个大的关键字上逐渐减少权重 NMF

还是LDA方法

这主要是一个钟形（显然不是曲线）

我还使用了加权jaccard（设置关键字重叠，加权；毫无疑问有更好的方法，但这是一种直观的方法）

你对此有何看法

最好的

安德烈亚斯

代码在

有一些常用的评估指标，可以很好地直观地了解主题集的质量，以及您对

（主题数量）的选择。Dieng等人最近的一篇论文。（）使用两种最佳度量：一致性和多样性。结合使用一致性和多样性，可以了解主题的聚集程度。一致性使用文档中单词的共现情况度量每个主题中单词的相似性，多样性根据主题的重叠度量主题之间的相似性。如果得分较低在多样性中，这意味着单词在主题中是重叠的，您可能希望增加

确实没有“决定k的最佳方法”，但这些措施可以帮助您决定是增加还是减少数量