Lda 主题中单词的木槌排序

Lda 主题中单词的木槌排序,lda,topic-modeling,mallet,Lda,Topic Modeling,Mallet,我对mallet比较陌生,需要知道: -mallet在每个主题中产生排名的单词是否以某种方式排序? -如果是这样的话,什么是排序(即)在主题列表中排名第一,在语料库中分布最广 谢谢 根据训练的概率对它们进行排序,即第一个单词最有可能出现在本主题中,第二个单词可能性较小,第三个单词可能性较小,依此类推。。虽然tfidf权重最高的单词更有可能是最可能的,但这些词与词频没有直接关系。此外,吉布斯抽样与单词在主题中的排名有很大关系——由于抽样的随机性,你可以得到主题中单词的不同概率。例如,尝试保存模型,

我对mallet比较陌生,需要知道: -mallet在每个主题中产生排名的单词是否以某种方式排序? -如果是这样的话,什么是排序(即)在主题列表中排名第一,在语料库中分布最广


谢谢

根据训练的概率对它们进行排序,即第一个单词最有可能出现在本主题中,第二个单词可能性较小,第三个单词可能性较小,依此类推。。虽然tfidf权重最高的单词更有可能是最可能的,但这些词与词频没有直接关系。此外,吉布斯抽样与单词在主题中的排名有很大关系——由于抽样的随机性,你可以得到主题中单词的不同概率。例如,尝试保存模型,然后使用--input model选项重新培训,这些主题看起来非常相似,但并不相同


也就是说,如果您需要查看语料库中与LDA无关的术语的实际权重,您可以使用Python中的NLTK之类的工具来检查频率分布,也可以使用sklearn for TFIDF之类的工具来获得更有意义的权重分布。

它们是根据训练的概率进行排序的,也就是说,第一个词最有可能出现在本主题中,第二个词可能性较小,第三个词可能性较小,依此类推。。虽然tfidf权重最高的单词更有可能是最可能的,但这些词与词频没有直接关系。此外,吉布斯抽样与单词在主题中的排名有很大关系——由于抽样的随机性,你可以得到主题中单词的不同概率。例如,尝试保存模型,然后使用--input model选项重新培训,这些主题看起来非常相似,但并不相同


也就是说,如果你需要看到语料库中与LDA无关的术语的实际权重,您可以使用Python中的NLTK之类的工具来检查频率分布,也可以使用sklearn for TFIDF之类的工具来获得更有意义的权重分布。

您可以共享一段Java代码以获得特定主题的单词比例吗?您可以共享一段Java代码以获得特定主题的单词比例吗话题?