Scikit learn 文本簇中的关键字数

Scikit learn 文本簇中的关键字数,scikit-learn,cluster-analysis,lda,nmf,Scikit Learn,Cluster Analysis,Lda,Nmf,我在一个大小适中的数据集中工作,希望确定哪些主题是有意义的。我使用了NMF和LDA(sklearn实现),但关键问题是:什么是成功的合适衡量标准。从视觉上看,我在许多主题中只有几个身高权重关键字(其他权重~0),还有几个主题的主题分布更钟形。目标是什么:一个只有几个单词的主题,高权重,低休息(尖峰)或钟形分布,在一个大的关键字上逐渐减少权重 NMF 还是LDA方法 这主要是一个钟形(显然不是曲线) 我还使用了加权jaccard(设置关键字重叠,加权;毫无疑问有更好的方法,但这是一种直观的方法

我在一个大小适中的数据集中工作,希望确定哪些主题是有意义的。我使用了NMF和LDA(sklearn实现),但关键问题是:什么是成功的合适衡量标准。从视觉上看,我在许多主题中只有几个身高权重关键字(其他权重~0),还有几个主题的主题分布更钟形。目标是什么:一个只有几个单词的主题,高权重,低休息(尖峰)或钟形分布,在一个大的关键字上逐渐减少权重 NMF

还是LDA方法

这主要是一个钟形(显然不是曲线)

我还使用了加权jaccard(设置关键字重叠,加权;毫无疑问有更好的方法,但这是一种直观的方法)

你对此有何看法

最好的

安德烈亚斯


代码在

有一些常用的评估指标,可以很好地直观地了解主题集的质量,以及您对
k
(主题数量)的选择。Dieng等人最近的一篇论文。()使用两种最佳度量:一致性和多样性。结合使用一致性和多样性,可以了解主题的聚集程度。一致性使用文档中单词的共现情况度量每个主题中单词的相似性,多样性根据主题的重叠度量主题之间的相似性。如果得分较低在多样性中,这意味着单词在主题中是重叠的,您可能希望增加
k

确实没有“决定k的最佳方法”,但这些措施可以帮助您决定是增加还是减少数量