Nlp 基于潜在Dirichlet分配的文档聚类_Nlp_Lda

Nlp 基于潜在Dirichlet分配的文档聚类

nlp

Nlp 基于潜在Dirichlet分配的文档聚类,nlp,lda,Nlp,Lda,在使用LDA算法识别所有文档的主题/集群后，当新文档到达数据库时，我们是否需要再次运行整个流程，或者是否有其他方法通过模型直接将新文档映射到预定义的集群/主题。一旦有了经过训练的主题模型，您可以输入一个新文档或一组文档，并计算模型主题的分布。不确定LDA使用的是什么，但Python的Gensim库非常好，并且有很好的文档记录。查阅更多信息。要添加到Lgiro的答案中，gensim允许添加新语料库并更新LDA结果。请参见下面的示例代码： lda = LdaModel(corpus, num_top

在使用LDA算法识别所有文档的主题/集群后，当新文档到达数据库时，我们是否需要再次运行整个流程，或者是否有其他方法通过模型直接将新文档映射到预定义的集群/主题。

一旦有了经过训练的主题模型，您可以输入一个新文档或一组文档，并计算模型主题的分布。不确定LDA使用的是什么，但Python的Gensim库非常好，并且有很好的文档记录。查阅更多信息。

要添加到Lgiro的答案中，gensim允许添加新语料库并更新LDA结果。请参见下面的示例代码：

lda = LdaModel(corpus, num_topics=100)  # train model
print(lda[doc_bow]) # get topic probability distribution for a document
lda.update(corpus2) # update the LDA model with additional documents
print(lda[doc_bow])