Apache spark 在vowpal wabbit中设置LDA模型的超参数

Apache spark 在vowpal wabbit中设置LDA模型的超参数,apache-spark,lda,vowpalwabbit,Apache Spark,Lda,Vowpalwabbit,我是一个典型的、经常使用Spark的人。在这里有超参数,它代表 docConcentration:针对主题的优先文档分布的超参数。当前必须大于1,其中较大的值鼓励更平滑的推断分布。 topicConcentration:先验主题在术语(单词)上的分布的超参数。当前必须大于1,其中较大的值鼓励更平滑的推断分布 这与文献中通常指定的$\alpha$和$\beta$参数相对应,在收敛过程中,LDA模型的对数似然函数针对这些参数(以及$k$-主题数)进行了优化 是否有人知道在模型中是否有任何选项可以设置

我是一个典型的、经常使用Spark的人。在这里有超参数,它代表

docConcentration
:针对主题的优先文档分布的超参数。当前必须大于1,其中较大的值鼓励更平滑的推断分布。
topicConcentration
:先验主题在术语(单词)上的分布的超参数。当前必须大于1,其中较大的值鼓励更平滑的推断分布

这与文献中通常指定的$\alpha$和$\beta$参数相对应,在收敛过程中,LDA模型的对数似然函数针对这些参数(以及$k$-主题数)进行了优化

是否有人知道在模型中是否有任何选项可以设置这些参数

检查!
我认为第13张幻灯片中提到的参数可能就是您正在寻找的参数。

为了完整起见,LDA实现提供了以下超参数:

Latent Dirichlet Allocation:
  --lda arg                             Run lda with <int> topics

  --lda_alpha arg (=0.100000001)        Prior on sparsity of per-document topic
                                        weights
  --lda_rho arg (=0.100000001)          Prior on sparsity of topic 
                                        distributions
  --lda_D arg (=10000)                  Number of documents
  --lda_epsilon arg (=0.00100000005)    Loop convergence threshold
  --minibatch arg (=1)                  Minibatch size, for LDA
  --math-mode arg (=0)                  Math mode: simd, accuracy, fast-approx
  --metrics arg (=0)                    Compute metrics
潜在Dirichlet分配:
--lda arg运行带有主题的lda
--lda_alpha arg(=0.10000001)优先于每个文档主题的稀疏性
砝码
--lda_rho arg(=0.10000001)优先于主题稀疏性
分配
--lda_D arg(=10000)文件数
--lda_εarg(=0.00100000005)循环收敛阈值
--小批量参数(=1)小批量大小,用于LDA
--数学模式参数(=0)数学模式:simd、精度、快速近似
--度量arg(=0)计算度量
您可以找到实现细节的源代码


或者直接跳转到提供稍微不同参数的应用程序中。

这正是我想要的。感谢@langusta
vw-h--lda1 | grep-a3 lda
I更新了Dirichlet先验和所有其他lda超参数的文档。