Parameters 在LDA模型中,如何从Dirichlet先验权重(alpha)中提取多项式参数(θ)?

Parameters 在LDA模型中,如何从Dirichlet先验权重(alpha)中提取多项式参数(θ)?,parameters,lda,topic-modeling,dirichlet,Parameters,Lda,Topic Modeling,Dirichlet,我是一名大一新生,现在正在研究LDA(潜在狄利克雷分配)模型。但是,我面临一个问题 θ是如何从α中提取出来的 θ~Dir(α) 根据我的理解,变量θ是一个长度为K的向量,其分量表示文档中主题的比例。 而且,对于每个文档,θ彼此不同。 而且,在语料库级别,alpha仍然是K向量,而θ是M(#文档)乘以K(#主题)大小的矩阵 第一个问题:我上面提到的是真的吗 第二个问题:如果是真的,在文档中,如何从同一个Dirichlet分布中提取不同的θ(K向量)?第一个答案:是的,你完全正确 第二个答案:正如你

我是一名大一新生,现在正在研究LDA(潜在狄利克雷分配)模型。但是,我面临一个问题

θ是如何从α中提取出来的

θ~Dir(α)

根据我的理解,变量θ是一个长度为K的向量,其分量表示文档中主题的比例。 而且,对于每个文档,θ彼此不同。 而且,在语料库级别,alpha仍然是K向量,而θ是M(#文档)乘以K(#主题)大小的矩阵

第一个问题:我上面提到的是真的吗


第二个问题:如果是真的,在文档中,如何从同一个Dirichlet分布中提取不同的θ(K向量)?

第一个答案:是的,你完全正确

第二个答案:正如你提到的,alpha是一个K向量。当我们从Dirichlet分布中抽取样本时,我们得到另一个K向量。这些值本身取决于alpha的值,但它们的总和为1(这就是如何将它们视为一个文档中所有主题的比例)。我们对每个文档采样一次,以获得M个向量——这就是我们获得MxK矩阵θ的方式

我们从狄里克莱分布采样得到的向量的长度取决于它的参数alpha的长度