R LDA主题模型包

R LDA主题模型包,r,parameters,lda,topic-modeling,dirichlet,R,Parameters,Lda,Topic Modeling,Dirichlet,伙计们 我是主题建模的初学者。我在R中使用topic models包。函数调用是LDA(数据,k) 我想知道使用了什么alpha和beta值?另外,哪种推理算法用于参数估计?还是吉布斯 谢谢我发现人们通常设置alpha=20/T,其中T是主题数,beta=0.01 变分EM和吉布斯抽样都可用于推断。使用LDA LDA(x, k, method = "VEM", control = NULL, model = NULL, ...) 因此,您可以指定方法 lda <- LDA(x, co

伙计们

我是主题建模的初学者。我在R中使用topic models包。函数调用是LDA(数据,k)

我想知道使用了什么alpha和beta值?另外,哪种推理算法用于参数估计?还是吉布斯


谢谢

我发现人们通常设置alpha=20/T,其中T是主题数,beta=0.01

变分EM和吉布斯抽样都可用于推断。

使用LDA

LDA(x, k, method = "VEM", control = NULL, model = NULL, ...) 
因此,您可以指定方法

 lda <- LDA(x, control = list(alpha = 0.1), k = 2)

lda主题的分布是使用Dirichlet定义的,作为alpha参数的函数。有多个dirichlet——一个在文档中,另一个在语料库中跨文档

在基本LDA中,可以设置alpha来定义语料库中主题的Dirichlet分布。通常使用的α值为0.001、0.01、0.1、1等。。(如有人所述,通常为1/K)

如果alpha非常小,则意味着(在前面设置)平均每个文档的主题可能较少(极端情况是1个主题或所有主题)。如果将alpha设置得非常低,则每个文档中的概率分布(后验)将非常倾斜

无论您设置了什么,固定一个alpha平均意味着每个主题大小(后验概率的平均值)在文档中都是相似的

而是根据数据估算阿尔法


阅读“重新思考LDA先验”,并考虑使用Python中的GEnSim.p> 我不明白你在问什么,这些都是你可以指定的参数……如果我在LDA中使用默认的alpha估计,我如何检查哪个alpha值是模型中使用的最终值?请将这两个函数

browseVignettes
添加到你的编码库中,如:
?LDA
browseVignettes('topicmodels')