Python 什么'；在自然语言中比较几种语料库的最佳方法是什么？_Python_Nlp_Nltk_Lda_Topic Modeling

Python 什么'；在自然语言中比较几种语料库的最佳方法是什么？

python nlp

Python 什么'；在自然语言中比较几种语料库的最佳方法是什么？,python,nlp,nltk,lda,topic-modeling,Python,Nlp,Nltk,Lda,Topic Modeling,我一直在为一个研究项目（使用Gensim和python）用自然语言编写叙事报告的LDA主题模型。我有几个很小的语料库（每个从1400到200个文档——我知道，这很小！），我想比较一下，但除了查看每个LDA模型（例如与pyLDAviz）之外，我不知道如何进行比较。我的学术背景不是CS，我对NLP还是有点陌生在语料库/主题模型中比较主题的一些好方法是什么？例如，是否可以估计两个LDA模型的重叠程度？还是有其他方法来评估几个语料库的主题相似性提前感谢您的帮助在一个大语料库中加入语料库，使用您认为

我一直在为一个研究项目（使用Gensim和python）用自然语言编写叙事报告的LDA主题模型。我有几个很小的语料库（每个从1400到200个文档——我知道，这很小！），我想比较一下，但除了查看每个LDA模型（例如与pyLDAviz）之外，我不知道如何进行比较。我的学术背景不是CS，我对NLP还是有点陌生

在语料库/主题模型中比较主题的一些好方法是什么？例如，是否可以估计两个LDA模型的重叠程度？还是有其他方法来评估几个语料库的主题相似性

提前感谢您的帮助

在一个大语料库中加入语料库，使用您认为合适的参数建立主题模型，然后比较主题在子语料库中的分布情况

这是我所知道的唯一干净的方法。注意，不同的随机种子在所有其他参数固定的情况下产生不同的主题模型；不存在语料库的主题模型

例如（子公司是科学论文发表的不同年份）可以在（完整引用：

@InProceedings{fankhauser-etal2016,
Title                    = {Topical Diversification over Time in the {R}oyal {S}ociety {C}orpus },
Author                   = {Peter Fankhauser and J{\"o}rg Knappen and Elke Teich},
Booktitle                = {Proceedings of DH  2016},
Year                     = {2016},
Address                  = {Krakow, Poland},
Month                    = {July 12-16},
url                      = {http://dh2016.adho.org/abstracts/322},
}

谢谢！你有关于如何比较主题在子公司中的分布情况的教程或示例吗？鉴于属于每个子集团的文档在模型中没有标记/标记其子集团的名称，我不确定如何做到这一点。任何帮助都将不胜感激@保罗·米勒：我在回答中加入了一个我与他人合著的研究实例。当然，您必须做一些簿记（例如，维护属于相应子公司的文档列表）。对于统计数据，我们使用R和python，但是您可以选择任何您喜欢的工具。我认为（目前）没有正确的数学方法来比较在不同语料库上训练的主题。但是，如果您将所有文档组合到一个语料库中并进行培训，您可以使用Hi@PaulMiller很容易地在该语料库中找到文档之间的相似性（通过主题分布），您是否有关于如何做到这一点的更新？