Nlp 如何确定文本聚类的LDA（潜在Dirichlet分配）算法中的主题数？_Nlp_Data Mining_Lda

Nlp 如何确定文本聚类的LDA（潜在Dirichlet分配）算法中的主题数？

nlp

Nlp 如何确定文本聚类的LDA（潜在Dirichlet分配）算法中的主题数？,nlp,data-mining,lda,Nlp,Data Mining,Lda,我使用LDA算法将许多文档分为不同的主题。LDA算法需要一个输入参数：主题数。我如何确定这一点我正在使用路透社语料库对我的解决方案进行基准测试。路透社语料库已经准备好了主题号。当我对Reuter文本进行聚类时，是否应该输入相同的主题号？把我的聚类结果和路透社的比较但在生产中，我如何知道主题的数量，然后才能根据主题进行聚类。这有点像一个鸡蛋问题。解决这个问题的一种方法是通过k方法。通过轮廓（或肘部曲线，但我想这需要手动干预），您可以获得最佳数量的簇。您可以使用此数字作为主题数答案是神奇的！！

我使用LDA算法将许多文档分为不同的主题。LDA算法需要一个输入参数：主题数。我如何确定这一点

我正在使用路透社语料库对我的解决方案进行基准测试。路透社语料库已经准备好了主题号。当我对Reuter文本进行聚类时，是否应该输入相同的主题号？把我的聚类结果和路透社的比较

但在生产中，我如何知道主题的数量，然后才能根据主题进行聚类。这有点像一个鸡蛋问题。

解决这个问题的一种方法是通过k方法。通过轮廓（或肘部曲线，但我想这需要手动干预），您可以获得最佳数量的簇。您可以使用此数字作为主题数

答案是神奇的！！！事实上，除了#topic参数之外，如果使用原始LDA，还需要设置alpha参数和beta参数。没有合适的解决方案说x是正确的主题数量。所以他们最终使用HDP。分层狄里克莱过程。另请参阅可能的副本。您是否研究过非参数LDA？