Nlp Gensim Mallet:输出没有几个主题的术语

Nlp Gensim Mallet:输出没有几个主题的术语,nlp,gensim,lda,topic-modeling,mallet,Nlp,Gensim,Lda,Topic Modeling,Mallet,下面是我使用Gensim Mallet包装器得到的输出。因此,我理解LL/token的意思是“模型的对数似然度除以token的总数”。1) 然而,对于像(1、8、11等)这样的少数主题,我根本看不到任何术语。2) 我试着为(10,20,2)中的一系列主题运行代码(第2步从10-20开始)。但输出显示17是生成的最后一个主题。我这里遗漏了一些东西 0 2.77778 watch 1 2.77778 2 2.77778 receive tape hope pu

下面是我使用Gensim Mallet包装器得到的输出。因此,我理解LL/token的意思是“模型的对数似然度除以token的总数”。1) 然而,对于像(1、8、11等)这样的少数主题,我根本看不到任何术语。2) 我试着为(10,20,2)中的一系列主题运行代码(第2步从10-20开始)。但输出显示17是生成的最后一个主题。我这里遗漏了一些东西

0       2.77778 watch 
1       2.77778 
2       2.77778 receive tape hope purchase 
3       2.77778 dvds wildlife pass yr interested 
4       2.77778 dvd version walk bored 
5       2.77778 volume courtyard trilogy 
6       2.77778 crazy picture minute 
7       2.77778 neighbor 
8       2.77778 
9       2.77778 buy mice trouble stay versus feeder 
10      2.77778 inside stir tv mine life bird wonderful year fascinated 
11      2.77778 
12      2.77778 
13      2.77778 recommend test real prefer greenery 
14      2.77778 age 
15      2.77778 funny triliogy play friend full minute 
16      2.77778 
17      2.77778 time tree 

<950> LL/token: -22.17456
<960> LL/token: -22.22132
<970> LL/token: -22.24897
<980> LL/token: -22.11585
<990> LL/token: -22.38062
0 2.77778手表
1       2.77778 
2.77778接收磁带希望购买
3 2.77778 DVD野生动物通行证
4 2.77778 dvd版本
5 2.77778卷庭院三部曲
6.2.77778疯狂图片分钟
7.2.77778邻居
8       2.77778 
9.2.77778购买老鼠麻烦住宿与喂食器
10 2.77778内搅电视矿井生活鸟精彩一年入迷
11      2.77778 
12      2.77778 
13.2.77778推荐测试真正喜欢绿色植物
14 2.77778岁
15 2.77778有趣的三部曲《玩伴》完整分钟
16      2.77778 
17 2.77778时间树
LL/代币:-22.17456
LL/代币:-22.22132
LL/代币:-22.24897
LL/代币:-22.11585
LL/代币:-22.38062

这看起来像是当输入集合太小或分成太少的段时得到的输出。“文件”应该是100-500字左右,至少应该有几百个