Nlp 基于潜在Dirichlet分配的文档聚类

Nlp 基于潜在Dirichlet分配的文档聚类,nlp,lda,Nlp,Lda,在使用LDA算法识别所有文档的主题/集群后,当新文档到达数据库时,我们是否需要再次运行整个流程,或者是否有其他方法通过模型直接将新文档映射到预定义的集群/主题。一旦有了经过训练的主题模型,您可以输入一个新文档或一组文档,并计算模型主题的分布。不确定LDA使用的是什么,但Python的Gensim库非常好,并且有很好的文档记录。查阅更多信息。要添加到Lgiro的答案中,gensim允许添加新语料库并更新LDA结果。请参见下面的示例代码: lda = LdaModel(corpus, num_top

在使用LDA算法识别所有文档的主题/集群后,当新文档到达数据库时,我们是否需要再次运行整个流程,或者是否有其他方法通过模型直接将新文档映射到预定义的集群/主题。

一旦有了经过训练的主题模型,您可以输入一个新文档或一组文档,并计算模型主题的分布。不确定LDA使用的是什么,但Python的Gensim库非常好,并且有很好的文档记录。查阅更多信息。

要添加到Lgiro的答案中,gensim允许添加新语料库并更新LDA结果。请参见下面的示例代码:

lda = LdaModel(corpus, num_topics=100)  # train model
print(lda[doc_bow]) # get topic probability distribution for a document
lda.update(corpus2) # update the LDA model with additional documents
print(lda[doc_bow])