Python gensim中原始LDA的项权重

Python gensim中原始LDA的项权重,python,lda,topic-modeling,gensim,Python,Lda,Topic Modeling,Gensim,我正在使用gensim库将LDA应用于一组文档。使用gensim,我可以将LDA应用于语料库,不管术语权重是什么:二进制、tf、tf、idf 我的问题是,什么是术语权重,应该用于原始?如果我理解正确,权重应该是术语频率,但我不确定。它应该是一个语料库,表示为“一袋单词”。或者,是的,术语计数列表 正确的格式是中定义的语料库的格式(这些非常有用) 也就是说,如果您有Radim教程中定义的词典,以及以下文档 doc1 = ['big', 'data', 'technique', 'lots', 'o

我正在使用gensim库将LDA应用于一组文档。使用gensim,我可以将LDA应用于语料库,不管术语权重是什么:二进制、tf、tf、idf


我的问题是,什么是术语权重,应该用于原始?如果我理解正确,权重应该是术语频率,但我不确定。

它应该是一个语料库,表示为“一袋单词”。或者,是的,术语计数列表

正确的格式是中定义的
语料库的格式(这些非常有用)

也就是说,如果您有Radim教程中定义的
词典
,以及以下文档

doc1 = ['big', 'data', 'technique', 'lots', 'of', 'cash']
doc2 = ['this', 'document', 'has', 'words']
docs = [doc1, doc2]
然后,您的语料库(用于LDA)应该是元组列表的可编辑对象(例如列表),其形式为:
(dictKey,count)
,其中
dk
指术语的字典键,count指它在文档中出现的次数。这是为你做的

corpus = [dictionary.doc2bow(doc) for doc in docs]
doc2bow
功能意味着“文档到文字包”