Nlp 如何确定LDA的主题数量?

Nlp 如何确定LDA的主题数量?,nlp,data-mining,lda,Nlp,Data Mining,Lda,我是LDA的大一新生,我想在工作中使用它。然而,也出现了一些问题 为了获得最佳性能,我想估计最佳主题编号。在阅读了《寻找科学主题》之后,我知道我可以先计算logP(w | z),然后使用一系列P(w | z)的调和平均值来估计P(w | T) 我的问题是“a系列”是什么意思 不幸的是,没有硬科学能给出你问题的正确答案。就我所知,这很可能是获得最佳主题数量的最佳方式 如果您想进行更深入的分析,请报告HDP在确定组数方面的优势。首先,有些人使用调和平均法来寻找最佳数量的主题,我也尝试过,但结果并不令

我是LDA的大一新生,我想在工作中使用它。然而,也出现了一些问题

为了获得最佳性能,我想估计最佳主题编号。在阅读了《寻找科学主题》之后,我知道我可以先计算logP(w | z),然后使用一系列P(w | z)的调和平均值来估计P(w | T)


我的问题是“a系列”是什么意思

不幸的是,没有硬科学能给出你问题的正确答案。就我所知,这很可能是获得最佳主题数量的最佳方式


如果您想进行更深入的分析,请报告HDP在确定组数方面的优势。

首先,有些人使用调和平均法来寻找最佳数量的主题,我也尝试过,但结果并不令人满意。因此,根据我的建议,如果您使用R,请打包“ldatuning”将非常有用。它有四个用于计算最佳参数数量的指标。同样,困惑和基于对数似然的V-fold交叉验证也是最佳主题建模的很好选择。对于大型数据集,V-fold交叉验证有点耗时。您可以看到“确定主题建模中适当主题数量的启发式方法”。 重要环节:
一种可靠的方法是计算不同数量主题的主题连贯性,并选择主题连贯性最高的模型。但有时,最高的价格可能并不总是合适的


见此

让k=主题数量

没有单一的最佳方法,我甚至不确定是否有任何标准的做法

方法1: 尝试不同的k值,选择可能性最大的一个

方法2: 代替LDA,看看是否可以使用HDP-LDA

方法3: 如果HDP-LDA在您的语料库上不可行(因为语料库的大小),则取一个统一的语料库样本并在该样本上运行HDP-LDA,取HDP-LDA给出的k值。对于围绕k的小间隔,使用方法1