Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/algorithm/11.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Algorithm LDA与主题模型_Algorithm_Model_Lda_Dirichlet - Fatal编程技术网

Algorithm LDA与主题模型

Algorithm LDA与主题模型,algorithm,model,lda,dirichlet,Algorithm,Model,Lda,Dirichlet,我已经学习了LDA和主题模型好几个星期了。但是由于我数学能力差,我不能完全理解它的内部算法。我使用了GibbsLDA实现,输入了很多文档,并将主题编号设置为100,我得到了一个名为“final.theta”的文件它存储了每个文档中每个主题的主题比例。这个结果很好,我可以使用主题比例做很多其他事情。 但当我在LDA上尝试Blei的C语言实现时,我只得到了一个名为final.gamma的文件,但我不知道如何将该文件转换为主题比例样式。 有人能帮我吗。 我了解到LDA模型有很多改进版本(如CTM、HL

我已经学习了LDA和主题模型好几个星期了。但是由于我数学能力差,我不能完全理解它的内部算法。我使用了GibbsLDA实现,输入了很多文档,并将主题编号设置为100,我得到了一个名为“final.theta”的文件它存储了每个文档中每个主题的主题比例。这个结果很好,我可以使用主题比例做很多其他事情。 但当我在LDA上尝试Blei的C语言实现时,我只得到了一个名为final.gamma的文件,但我不知道如何将该文件转换为主题比例样式。 有人能帮我吗。 我了解到LDA模型有很多改进版本(如CTM、HLDA),如果我能找到一个类似LDA的主题模型,我的意思是当我输入大量文档时,它可以直接输出文档中的主题比例。
多谢各位

我认为Blei实现的问题在于,您正在通过运行:

$lda inf[args…]

当您想进行主题评估时,请使用:

$lda est[参数…]

一旦运行此命令,当前目录或可选的最后一个参数指定的目录中将有一个文件“final.beta”。然后运行tar中包含的python脚本“topics.py”。这里的自述:描述了所有内容,特别是B和D部分

(如果这仍然没有意义,请告诉我)

至于诸如CTM等方面的改进:我对HLDA一无所知,但我在过去使用过LDA和CTM,我可以说两者都不比另一个好——这是一种更好地处理不同数据的情况。CTM假设文档是相关的,并使用该假设来改进结果,只要它是真实的


希望这有帮助

要得到E[θ],只需规范化每行中的gamma。它遵循狄利克莱分布的性质。

+1作为LDA参考-对我来说这是一个新想法。谢谢。谢谢你的帮助,但我想知道的是如何将结果文件转换成主题比例?我的意思是θ,我认为,这个答案是误导性的。OP询问主题比例(每个主题在文档-θ中出现的次数),答案是关于主题(单词分布-beta)。