Lda 主题中单词的木槌排序_Lda_Topic Modeling_Mallet

Lda 主题中单词的木槌排序

Lda 主题中单词的木槌排序,lda,topic-modeling,mallet,Lda,Topic Modeling,Mallet,我对mallet比较陌生，需要知道： -mallet在每个主题中产生排名的单词是否以某种方式排序？ -如果是这样的话，什么是排序（即）在主题列表中排名第一，在语料库中分布最广谢谢根据训练的概率对它们进行排序，即第一个单词最有可能出现在本主题中，第二个单词可能性较小，第三个单词可能性较小，依此类推。。虽然tfidf权重最高的单词更有可能是最可能的，但这些词与词频没有直接关系。此外，吉布斯抽样与单词在主题中的排名有很大关系——由于抽样的随机性，你可以得到主题中单词的不同概率。例如，尝试保存模型，

我对mallet比较陌生，需要知道： -mallet在每个主题中产生排名的单词是否以某种方式排序？ -如果是这样的话，什么是排序（即）在主题列表中排名第一，在语料库中分布最广

谢谢

根据训练的概率对它们进行排序，即第一个单词最有可能出现在本主题中，第二个单词可能性较小，第三个单词可能性较小，依此类推。。虽然tfidf权重最高的单词更有可能是最可能的，但这些词与词频没有直接关系。此外，吉布斯抽样与单词在主题中的排名有很大关系——由于抽样的随机性，你可以得到主题中单词的不同概率。例如，尝试保存模型，然后使用--input model选项重新培训，这些主题看起来非常相似，但并不相同

也就是说，如果您需要查看语料库中与LDA无关的术语的实际权重，您可以使用Python中的NLTK之类的工具来检查频率分布，也可以使用sklearn for TFIDF之类的工具来获得更有意义的权重分布。

它们是根据训练的概率进行排序的，也就是说，第一个词最有可能出现在本主题中，第二个词可能性较小，第三个词可能性较小，依此类推。。虽然tfidf权重最高的单词更有可能是最可能的，但这些词与词频没有直接关系。此外，吉布斯抽样与单词在主题中的排名有很大关系——由于抽样的随机性，你可以得到主题中单词的不同概率。例如，尝试保存模型，然后使用--input model选项重新培训，这些主题看起来非常相似，但并不相同

也就是说，如果你需要看到语料库中与LDA无关的术语的实际权重，您可以使用Python中的NLTK之类的工具来检查频率分布，也可以使用sklearn for TFIDF之类的工具来获得更有意义的权重分布。

您可以共享一段Java代码以获得特定主题的单词比例吗？您可以共享一段Java代码以获得特定主题的单词比例吗话题？