Nlp 如何确定文本聚类的LDA(潜在Dirichlet分配)算法中的主题数?

Nlp 如何确定文本聚类的LDA(潜在Dirichlet分配)算法中的主题数?,nlp,data-mining,lda,Nlp,Data Mining,Lda,我使用LDA算法将许多文档分为不同的主题。LDA算法需要一个输入参数:主题数。我如何确定这一点 我正在使用路透社语料库对我的解决方案进行基准测试。路透社语料库已经准备好了主题号。当我对Reuter文本进行聚类时,是否应该输入相同的主题号?把我的聚类结果和路透社的比较 但在生产中,我如何知道主题的数量,然后才能根据主题进行聚类。这有点像一个鸡蛋问题。解决这个问题的一种方法是通过k方法。通过轮廓(或肘部曲线,但我想这需要手动干预),您可以获得最佳数量的簇。您可以使用此数字作为主题数 答案是神奇的!!

我使用LDA算法将许多文档分为不同的主题。LDA算法需要一个输入参数:主题数。我如何确定这一点

我正在使用路透社语料库对我的解决方案进行基准测试。路透社语料库已经准备好了主题号。当我对Reuter文本进行聚类时,是否应该输入相同的主题号?把我的聚类结果和路透社的比较


但在生产中,我如何知道主题的数量,然后才能根据主题进行聚类。这有点像一个鸡蛋问题。

解决这个问题的一种方法是通过k方法。通过轮廓(或肘部曲线,但我想这需要手动干预),您可以获得最佳数量的簇。您可以使用此数字作为主题数

答案是神奇的!!!事实上,除了#topic参数之外,如果使用原始LDA,还需要设置alpha参数和beta参数。没有合适的解决方案说x是正确的主题数量。所以他们最终使用HDP。分层狄里克莱过程。另请参阅可能的副本。您是否研究过非参数LDA?