Apache spark 在vowpal wabbit中设置LDA模型的超参数
我是一个典型的、经常使用Spark的人。在这里有超参数,它代表Apache spark 在vowpal wabbit中设置LDA模型的超参数,apache-spark,lda,vowpalwabbit,Apache Spark,Lda,Vowpalwabbit,我是一个典型的、经常使用Spark的人。在这里有超参数,它代表 docConcentration:针对主题的优先文档分布的超参数。当前必须大于1,其中较大的值鼓励更平滑的推断分布。 topicConcentration:先验主题在术语(单词)上的分布的超参数。当前必须大于1,其中较大的值鼓励更平滑的推断分布 这与文献中通常指定的$\alpha$和$\beta$参数相对应,在收敛过程中,LDA模型的对数似然函数针对这些参数(以及$k$-主题数)进行了优化 是否有人知道在模型中是否有任何选项可以设置
docConcentration
:针对主题的优先文档分布的超参数。当前必须大于1,其中较大的值鼓励更平滑的推断分布。
topicConcentration
:先验主题在术语(单词)上的分布的超参数。当前必须大于1,其中较大的值鼓励更平滑的推断分布
这与文献中通常指定的$\alpha$和$\beta$参数相对应,在收敛过程中,LDA模型的对数似然函数针对这些参数(以及$k$-主题数)进行了优化
是否有人知道在模型中是否有任何选项可以设置这些参数 检查!
我认为第13张幻灯片中提到的参数可能就是您正在寻找的参数。为了完整起见,LDA实现提供了以下超参数:
Latent Dirichlet Allocation:
--lda arg Run lda with <int> topics
--lda_alpha arg (=0.100000001) Prior on sparsity of per-document topic
weights
--lda_rho arg (=0.100000001) Prior on sparsity of topic
distributions
--lda_D arg (=10000) Number of documents
--lda_epsilon arg (=0.00100000005) Loop convergence threshold
--minibatch arg (=1) Minibatch size, for LDA
--math-mode arg (=0) Math mode: simd, accuracy, fast-approx
--metrics arg (=0) Compute metrics
潜在Dirichlet分配:
--lda arg运行带有主题的lda
--lda_alpha arg(=0.10000001)优先于每个文档主题的稀疏性
砝码
--lda_rho arg(=0.10000001)优先于主题稀疏性
分配
--lda_D arg(=10000)文件数
--lda_εarg(=0.00100000005)循环收敛阈值
--小批量参数(=1)小批量大小,用于LDA
--数学模式参数(=0)数学模式:simd、精度、快速近似
--度量arg(=0)计算度量
您可以找到实现细节的源代码
或者直接跳转到提供稍微不同参数的应用程序中。这正是我想要的。感谢@langusta
vw-h--lda1 | grep-a3 lda
I更新了Dirichlet先验和所有其他lda超参数的文档。