Nlp 连贯性得分(u_mass)-18分是好还是坏?

Nlp 连贯性得分(u_mass)-18分是好还是坏?,nlp,lda,topic-modeling,lsa,topicmodels,Nlp,Lda,Topic Modeling,Lsa,Topicmodels,我读了这个问题(),发现连贯性得分(u_mass)是从-14到14。但当我做实验时,我的u_质量分数为-18,c_v分数为0.67。我想知道我的u_质量分数怎么会超出范围(-14,14) 更新:我使用gensim库,扫描了2到50个主题。对于u_质量,它从0开始到最低的负点,再向后转一点,就像c_v的上下版本。根据中提供的u_质量一致性分数的数学公式 如果u_mass接近于值0,则表示完全一致,并且值0的任何一侧都会波动,这取决于选择的主题数量和用于执行主题聚类的数据类型。判断u_质量的最佳方法

我读了这个问题(),发现连贯性得分(u_mass)是从-14到14。但当我做实验时,我的u_质量分数为-18,c_v分数为0.67。我想知道我的u_质量分数怎么会超出范围(-14,14)


更新:我使用gensim库,扫描了2到50个主题。对于u_质量,它从0开始到最低的负点,再向后转一点,就像c_v的上下版本。

根据中提供的u_质量一致性分数的数学公式

如果u_mass接近于值0,则表示完全一致,并且值0的任何一侧都会波动,这取决于选择的主题数量和用于执行主题聚类的数据类型。判断u_质量的最佳方法是绘制u_质量与不同K值(主题数)之间的曲线。选择K,使u_mass的值接近0

您可以参考这篇文章,它提供了python代码片段来绘制K和c_v的不同值之间的曲线。在这里,你可以用质量相干度量来代替c_v


我希望这一解释能有所帮助。

根据本手册中提供的u_质量一致性分数的数学公式

如果u_mass接近于值0,则表示完全一致,并且值0的任何一侧都会波动,这取决于选择的主题数量和用于执行主题聚类的数据类型。判断u_质量的最佳方法是绘制u_质量与不同K值(主题数)之间的曲线。选择K,使u_mass的值接近0

您可以参考这篇文章,它提供了python代码片段来绘制K和c_v的不同值之间的曲线。在这里,你可以用质量相干度量来代替c_v


我希望这个解释能有所帮助。

我参考了两个来源,发现了相似之处,也许可以澄清我的疑问:

我相信,对于u_质量,曲线图将是c_v的上下方向,最低点是最好的。当然,如果你使用gensim


我参考了两个来源,发现了相似之处,也许可以澄清我的疑问:

我相信,对于u_质量,曲线图将是c_v的上下方向,最低点是最好的。当然,如果你使用gensim


我用的是gensim,我的图表不像你说的那样。它从0开始到最低点,然后向上翻一点,然后在该点上下波动。它看起来像是c_v的上下版本。我怀疑gensim做了什么?我能在这里看到你的图表吗?这里是:我使用gensim,我的图表和你说的不一样。它从0开始到最低点,然后向上翻一点,然后在该点上下波动。它看起来像是c_v的上下版本。我怀疑gensim做了什么?我能看看你的图表吗?这是: