Python 在将未看到的文档投影到模型主题之前,是否需要对其进行转换?
因此,我创建了一个通用的bow语料库,它按照Python 在将未看到的文档投影到模型主题之前,是否需要对其进行转换?,python,tf-idf,lda,gensim,Python,Tf Idf,Lda,Gensim,因此,我创建了一个通用的bow语料库,它按照gensim要求的格式生成文档(.) 然而,这些文件中有很多非常常用的词。所以我想用a来平衡这一点 所以我做了一些类似的事情 tfidf_model = TfidfModel(corpus) new_corpus = tfidf_model[corpus] 现在我想训练我的LDA lda = LdaModel(corpus=new_corpus, num_topics=16) 而且它训练和聚合很好…很好。现在我有了一个新的看不见的文档,我想把它投射
gensim
要求的格式生成文档(.)
然而,这些文件中有很多非常常用的词。所以我想用a来平衡这一点
所以我做了一些类似的事情
tfidf_model = TfidfModel(corpus)
new_corpus = tfidf_model[corpus]
现在我想训练我的LDA
lda = LdaModel(corpus=new_corpus, num_topics=16)
而且它训练和聚合很好…很好。现在我有了一个新的看不见的文档,我想把它投射到我的lda主题上。我是否始终需要首先使用tfidf\u模型
投影此新文档?i、 e
transformed_doc = tfidf_model[unseen_doc]
projections = lda[transformed_doc]
或者可以gensim
获取原件并知道先应用tfidf
,然后投影到lda
projections = lda[unseen_doc]
gensim的docs对于模型是否知道对语料库应用了任何其他先前的转换有点不清楚