Nlp Gensim HDP主题模型:如何对语料库进行多次训练?

Nlp Gensim HDP主题模型:如何对语料库进行多次训练?,nlp,gensim,lda,topic-modeling,Nlp,Gensim,Lda,Topic Modeling,Gensim的主题建模HDP模型(Gensim.models.hdpmodel.hdpmodel)有一个构造函数,它接受一个名为max\u chunks的参数 在文档中,它说,max_chunks是模型将检查的块数,如果大于提供的语料库中的块数,则训练将围绕语料库进行 由于信息日志警告我似然函数一直在下降,我想我可能需要在语料库上多次传递才能收敛 LDA模型为passes参数提供了在语料库上进行多次迭代训练的功能。我很难弄清楚HDP中的max_chunks如何映射到LDA中的passes 例如,

Gensim的主题建模HDP模型(Gensim.models.hdpmodel.hdpmodel)有一个构造函数,它接受一个名为
max\u chunks
的参数

在文档中,它说,
max_chunks
是模型将检查的块数,如果大于提供的语料库中的块数,则训练将围绕语料库进行

由于信息日志警告我似然函数一直在下降,我想我可能需要在语料库上多次传递才能收敛

LDA模型为
passes
参数提供了在语料库上进行多次迭代训练的功能。我很难弄清楚HDP中的
max_chunks
如何映射到LDA中的
passes

例如,假设我的语料库有1000000个文档。要想在我的语料库上训练,比如说,3次传球,最大分块需要是什么


有什么建议吗?非常感谢

chunksize、
passes
update\u every
选项可能有点混乱。帮助我的是这一部分,特别是
Chunksize、Passes和Update\u every

因此,在您的情况下,如果将
update\u every
设置为0,并将
chunksize
设置为文档数,将
passes
设置为3,则整个语料库应通过三次


如果
update\u every
设置为1,您还可以使用
chunksize
来控制每次传递的小批量大小。

类gensim.models.hdpmodel.hdpmodel(语料库,id2word,最大块数=None,最大时间=None,块大小=256,kappa=1.0,tau=64.0,K=15,T=150,alpha=1,gamma=1,eta=0.01,scale=1.0,var\u converge=0.0001,outputdir=None,random\u state=None)

我认为,如果您有1000000个文档,那么如果您使用默认的chunksize 256,则需要max_chunks=100000/256*3才能强制执行3次传递

我还收到了
警告:可能性正在降低!
消息,我认为我的语料库太小(608篇短文本),太统一,无法在其中找到主题