Python 在将未看到的文档投影到模型主题之前，是否需要对其进行转换？_Python_Tf Idf_Lda_Gensim

Python 在将未看到的文档投影到模型主题之前，是否需要对其进行转换？

python

Python 在将未看到的文档投影到模型主题之前，是否需要对其进行转换？,python,tf-idf,lda,gensim,Python,Tf Idf,Lda,Gensim,因此，我创建了一个通用的bow语料库，它按照gensim要求的格式生成文档（.）然而，这些文件中有很多非常常用的词。所以我想用a来平衡这一点所以我做了一些类似的事情 tfidf_model = TfidfModel(corpus) new_corpus = tfidf_model[corpus] 现在我想训练我的LDA lda = LdaModel(corpus=new_corpus, num_topics=16) 而且它训练和聚合很好…很好。现在我有了一个新的看不见的文档，我想把它投射

因此，我创建了一个通用的bow语料库，它按照

gensim

要求的格式生成文档（.）

然而，这些文件中有很多非常常用的词。所以我想用a来平衡这一点

所以我做了一些类似的事情

tfidf_model = TfidfModel(corpus)
new_corpus = tfidf_model[corpus]

现在我想训练我的LDA

lda = LdaModel(corpus=new_corpus, num_topics=16)

而且它训练和聚合很好…很好。现在我有了一个新的看不见的文档，我想把它投射到我的lda主题上。我是否始终需要首先使用

tfidf\u模型

投影此新文档？i、 e

transformed_doc = tfidf_model[unseen_doc]
projections = lda[transformed_doc]

或者可以

gensim

获取原件并知道先应用

tfidf

，然后投影到

lda

projections = lda[unseen_doc]

gensim的

docs对于模型是否知道对语料库应用了任何其他先前的转换有点不清楚