Nlp Gensim HDP主题模型:如何对语料库进行多次训练?
Gensim的主题建模HDP模型(Gensim.models.hdpmodel.hdpmodel)有一个构造函数,它接受一个名为Nlp Gensim HDP主题模型:如何对语料库进行多次训练?,nlp,gensim,lda,topic-modeling,Nlp,Gensim,Lda,Topic Modeling,Gensim的主题建模HDP模型(Gensim.models.hdpmodel.hdpmodel)有一个构造函数,它接受一个名为max\u chunks的参数 在文档中,它说,max_chunks是模型将检查的块数,如果大于提供的语料库中的块数,则训练将围绕语料库进行 由于信息日志警告我似然函数一直在下降,我想我可能需要在语料库上多次传递才能收敛 LDA模型为passes参数提供了在语料库上进行多次迭代训练的功能。我很难弄清楚HDP中的max_chunks如何映射到LDA中的passes 例如,
max\u chunks
的参数
在文档中,它说,max_chunks
是模型将检查的块数,如果大于提供的语料库中的块数,则训练将围绕语料库进行
由于信息日志警告我似然函数一直在下降,我想我可能需要在语料库上多次传递才能收敛
LDA模型为passes
参数提供了在语料库上进行多次迭代训练的功能。我很难弄清楚HDP中的max_chunks
如何映射到LDA中的passes
例如,假设我的语料库有1000000个文档。要想在我的语料库上训练,比如说,3次传球,最大分块需要是什么
有什么建议吗?非常感谢chunksize、
passes
和update\u every
选项可能有点混乱。帮助我的是这一部分,特别是Chunksize、Passes和Update\u every
因此,在您的情况下,如果将update\u every
设置为0,并将chunksize
设置为文档数,将passes
设置为3,则整个语料库应通过三次
如果
update\u every
设置为1,您还可以使用chunksize
来控制每次传递的小批量大小。类gensim.models.hdpmodel.hdpmodel(语料库,id2word,最大块数=None,最大时间=None,块大小=256,kappa=1.0,tau=64.0,K=15,T=150,alpha=1,gamma=1,eta=0.01,scale=1.0,var\u converge=0.0001,outputdir=None,random\u state=None)
我认为,如果您有1000000个文档,那么如果您使用默认的chunksize 256,则需要max_chunks=100000/256*3才能强制执行3次传递
我还收到了警告:可能性正在降低!
消息,我认为我的语料库太小(608篇短文本),太统一,无法在其中找到主题