Apache spark 在vowpal wabbit中设置LDA模型的超参数_Apache Spark_Lda_Vowpalwabbit

Apache spark 在vowpal wabbit中设置LDA模型的超参数

apache-spark

Apache spark 在vowpal wabbit中设置LDA模型的超参数,apache-spark,lda,vowpalwabbit,Apache Spark,Lda,Vowpalwabbit,我是一个典型的、经常使用Spark的人。在这里有超参数，它代表 docConcentration：针对主题的优先文档分布的超参数。当前必须大于1，其中较大的值鼓励更平滑的推断分布。 topicConcentration：先验主题在术语（单词）上的分布的超参数。当前必须大于1，其中较大的值鼓励更平滑的推断分布这与文献中通常指定的$\alpha$和$\beta$参数相对应，在收敛过程中，LDA模型的对数似然函数针对这些参数（以及$k$-主题数）进行了优化是否有人知道在模型中是否有任何选项可以设置

我是一个典型的、经常使用Spark的人。在这里有超参数，它代表

docConcentration

：针对主题的优先文档分布的超参数。当前必须大于1，其中较大的值鼓励更平滑的推断分布。

topicConcentration

：先验主题在术语（单词）上的分布的超参数。当前必须大于1，其中较大的值鼓励更平滑的推断分布

这与文献中通常指定的$\alpha$和$\beta$参数相对应，在收敛过程中，LDA模型的对数似然函数针对这些参数（以及$k$-主题数）进行了优化

是否有人知道在模型中是否有任何选项可以设置这些参数

检查！

我认为第13张幻灯片中提到的参数可能就是您正在寻找的参数。

为了完整起见，LDA实现提供了以下超参数：

Latent Dirichlet Allocation:
  --lda arg                             Run lda with <int> topics

  --lda_alpha arg (=0.100000001)        Prior on sparsity of per-document topic
                                        weights
  --lda_rho arg (=0.100000001)          Prior on sparsity of topic 
                                        distributions
  --lda_D arg (=10000)                  Number of documents
  --lda_epsilon arg (=0.00100000005)    Loop convergence threshold
  --minibatch arg (=1)                  Minibatch size, for LDA
  --math-mode arg (=0)                  Math mode: simd, accuracy, fast-approx
  --metrics arg (=0)                    Compute metrics

潜在Dirichlet分配：
--lda arg运行带有主题的lda
--lda_alpha arg（=0.10000001）优先于每个文档主题的稀疏性
砝码
--lda_rho arg（=0.10000001）优先于主题稀疏性
分配
--lda_D arg（=10000）文件数
--lda_εarg（=0.00100000005）循环收敛阈值
--小批量参数（=1）小批量大小，用于LDA
--数学模式参数（=0）数学模式：simd、精度、快速近似
--度量arg（=0）计算度量

您可以找到实现细节的源代码

或者直接跳转到提供稍微不同参数的应用程序中。

这正是我想要的。感谢@langusta

vw-h--lda1 | grep-a3 lda

I更新了Dirichlet先验和所有其他lda超参数的文档。