Nlp 如何确定LDA的主题数量？_Nlp_Data Mining_Lda

Nlp 如何确定LDA的主题数量？

nlp

Nlp 如何确定LDA的主题数量？,nlp,data-mining,lda,Nlp,Data Mining,Lda,我是LDA的大一新生，我想在工作中使用它。然而，也出现了一些问题为了获得最佳性能，我想估计最佳主题编号。在阅读了《寻找科学主题》之后，我知道我可以先计算logP（w | z），然后使用一系列P（w | z）的调和平均值来估计P（w | T）我的问题是“a系列”是什么意思不幸的是，没有硬科学能给出你问题的正确答案。就我所知，这很可能是获得最佳主题数量的最佳方式如果您想进行更深入的分析，请报告HDP在确定组数方面的优势。首先，有些人使用调和平均法来寻找最佳数量的主题，我也尝试过，但结果并不令

我是LDA的大一新生，我想在工作中使用它。然而，也出现了一些问题

为了获得最佳性能，我想估计最佳主题编号。在阅读了《寻找科学主题》之后，我知道我可以先计算logP（w | z），然后使用一系列P（w | z）的调和平均值来估计P（w | T）

我的问题是“a系列”是什么意思

不幸的是，没有硬科学能给出你问题的正确答案。就我所知，这很可能是获得最佳主题数量的最佳方式

如果您想进行更深入的分析，请报告HDP在确定组数方面的优势。

首先，有些人使用调和平均法来寻找最佳数量的主题，我也尝试过，但结果并不令人满意。因此，根据我的建议，如果您使用R，请打包“ldatuning”将非常有用。它有四个用于计算最佳参数数量的指标。同样，困惑和基于对数似然的V-fold交叉验证也是最佳主题建模的很好选择。对于大型数据集，V-fold交叉验证有点耗时。您可以看到“确定主题建模中适当主题数量的启发式方法”。重要环节：

一种可靠的方法是计算不同数量主题的主题连贯性，并选择主题连贯性最高的模型。但有时，最高的价格可能并不总是合适的

见此

让k=主题数量

没有单一的最佳方法，我甚至不确定是否有任何标准的做法

方法1：尝试不同的k值，选择可能性最大的一个

方法2：代替LDA，看看是否可以使用HDP-LDA

方法3：如果HDP-LDA在您的语料库上不可行（因为语料库的大小），则取一个统一的语料库样本并在该样本上运行HDP-LDA，取HDP-LDA给出的k值。对于围绕k的小间隔，使用方法1