Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/redis/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Nlp 主题模型中主题的动态数量_Nlp_Lda_Gensim_Topic Modeling - Fatal编程技术网

Nlp 主题模型中主题的动态数量

Nlp 主题模型中主题的动态数量,nlp,lda,gensim,topic-modeling,Nlp,Lda,Gensim,Topic Modeling,我不熟悉主题造型。 我的目标是从文档中查找关键主题。我正计划为此目的使用lda。但在lda中,主题的数量应该是预定义的。我相信如果来自其他领域的文档不在训练语料库中,它将不会给出正确的结果。有没有其他解决办法?我的想法正确吗 学习主题的两个很好的候选者是潜在Dirichlet分配(LDA)和层次Dirichlet过程(HDP)主题模型 对于LDA,主题K的数量是固定的,并且假设提前知道。快速推理算法,例如在中实现的在线变分贝叶斯(VB)算法,通过在大型语料库上进行训练并将K设置为高,我们可以避免

我不熟悉主题造型。
我的目标是从文档中查找关键主题。我正计划为此目的使用lda。但在lda中,主题的数量应该是预定义的。我相信如果来自其他领域的文档不在训练语料库中,它将不会给出正确的结果。有没有其他解决办法?我的想法正确吗

学习主题的两个很好的候选者是潜在Dirichlet分配(LDA)和层次Dirichlet过程(HDP)主题模型

对于LDA,主题K的数量是固定的,并且假设提前知道。快速推理算法,例如在中实现的在线变分贝叶斯(VB)算法,通过在大型语料库上进行训练并将K设置为高,我们可以避免过拟合问题,并学习样本外文档的有意义主题。对于LDA,交叉验证通常用于通过评估不同主题数量的复杂度并选择使复杂度最小化的K来设置K


或者,HDP主题模型(在中实现)自动从数据中学习主题的数量。通过设置浓度参数和截断水平,模型可以推断主题的数量。高效的推理算法,如针对HDP的在线变分推理,可以对海量数据集进行培训,并发现有意义的主题。

你说的“文档”是指只有一个文档吗?只有当您拥有由许多文档组成的语料库时,使用LDA进行主题建模才有意义。还要注意,主题建模中的“主题”有一个相当具体的含义,它与“标记任务”不同。