Nlp 从术语频率矩阵或字符串集合创建gensim语料库_Nlp_Gensim_Corpus_Word2vec

Nlp 从术语频率矩阵或字符串集合创建gensim语料库

nlp

Nlp 从术语频率矩阵或字符串集合创建gensim语料库,nlp,gensim,corpus,word2vec,Nlp,Gensim,Corpus,Word2vec,我正在尝试使用gensim进行主题分类。我已经从多个文档中获得了以下形式的所有特征词： corpus = [['word1','word2',..],['A','B',...]] (python list of lists) 以及稀疏形式的术语频率矩阵和dict 我试着在这方面培训gensim LDA： lda_model = gensim.models.LdaModel(term_freq_matrix, num_topics=10, id2word=feature_names_dict,

我正在尝试使用gensim进行主题分类。我已经从多个文档中获得了以下形式的所有特征词：

corpus = [['word1','word2',..],['A','B',...]] (python list of lists)

以及稀疏形式的术语频率矩阵和dict

我试着在这方面培训gensim LDA：

 lda_model = gensim.models.LdaModel(term_freq_matrix, num_topics=10, id2word=feature_names_dict, passes=4)

但我得到了以下错误：

  File "/home/oliver/Environments/cmpdp/local/lib/python2.7/site-packages/gensim/models/ldamodel.py", line 523, in <genexpr>
    corpus_words = sum(cnt for document in chunk for _, cnt in document)
ValueError: need more than 1 value to unpack

教程语料库：打印（下一个（国际热核实验堆（mm_语料库）））

你觉得怎么样

 print(next(iter(term_freq_matrix)))
  (0, 12036)    1
  (0, 12406)    2
...
  (0, 3916) 1
  (0, 3157) 1

[(24, 1.0), (38, 1.0), (53, 1.0), (103, 1.0), (111, 1.0), (213, 3.0), (237, 1.0), (242, 2.0)]