Vector 使用gensim从单词包向量创建LDA模型

Vector 使用gensim从单词包向量创建LDA模型,vector,lda,topic-modeling,jstor,Vector,Lda,Topic Modeling,Jstor,我想根据Jstor提供的数据(例如)创建一个主题模型。但是,由于版权问题,他们不允许全文访问。相反,我可以在文档中请求一个Unigram列表,后跟它们的频率(以明文.txt提供)。e、 g: 这应该很容易转换成一袋文字向量。然而,我只找到了从全文构建Gensim LDA模型的示例。是否可以将这些向量传递给它?是的,您只需要将(单词,频率)转换为(单词,频率),并将元组列表传递给任何gensim模型的语料库。要将一个单词转换为数字,您可以首先计算整个语料库中有多少个单词,假设我们有V个单词,那么每

我想根据Jstor提供的数据(例如)创建一个主题模型。但是,由于版权问题,他们不允许全文访问。相反,我可以在文档中请求一个Unigram列表,后跟它们的频率(以明文
.txt
提供)。e、 g:


这应该很容易转换成一袋文字向量。然而,我只找到了从全文构建Gensim LDA模型的示例。是否可以将这些向量传递给它?

是的,您只需要将
(单词,频率)
转换为
(单词,频率)
,并将元组列表传递给任何gensim模型的
语料库。要将一个单词转换为数字,您可以首先计算整个语料库中有多少个单词,假设我们有V个单词,那么每个单词都可以表示为1到V之间的整数。

是的,您只需要将
(单词,频率)
转换为
(单词,频率)
,并将元组列表传递给任何gensim模型的
语料库
。要将一个单词转换为一个数字,您可以首先计算整个语料库中有多少个单词,假设我们有V个单词,那么每个单词都可以表示为1到V之间的整数

his         295
old         181
he          165
age         152
p           110
from         79
life         74
de           71
petrarch     58
book         51
courtier     47