Python gensim中原始LDA的项权重_Python_Lda_Topic Modeling_Gensim

Python gensim中原始LDA的项权重

python

Python gensim中原始LDA的项权重,python,lda,topic-modeling,gensim,Python,Lda,Topic Modeling,Gensim,我正在使用gensim库将LDA应用于一组文档。使用gensim，我可以将LDA应用于语料库，不管术语权重是什么：二进制、tf、tf、idf 我的问题是，什么是术语权重，应该用于原始？如果我理解正确，权重应该是术语频率，但我不确定。它应该是一个语料库，表示为“一袋单词”。或者，是的，术语计数列表正确的格式是中定义的语料库的格式（这些非常有用）也就是说，如果您有Radim教程中定义的词典，以及以下文档 doc1 = ['big', 'data', 'technique', 'lots', 'o

我正在使用gensim库将LDA应用于一组文档。使用gensim，我可以将LDA应用于语料库，不管术语权重是什么：二进制、tf、tf、idf

我的问题是，什么是术语权重，应该用于原始？如果我理解正确，权重应该是术语频率，但我不确定。

它应该是一个语料库，表示为“一袋单词”。或者，是的，术语计数列表

正确的格式是中定义的

语料库的格式（这些非常有用）
也就是说，如果您有Radim教程中定义的词典
，以及以下文档
doc1 = ['big', 'data', 'technique', 'lots', 'of', 'cash']
doc2 = ['this', 'document', 'has', 'words']
docs = [doc1, doc2]

然后，您的语料库（用于LDA）应该是元组列表的可编辑对象（例如列表），其形式为：（dictKey，count）
，其中dk
指术语的字典键，count指它在文档中出现的次数。这是为你做的
corpus = [dictionary.doc2bow(doc) for doc in docs]

doc2bow
功能意味着“文档到文字包”