Python 如何使用Gensim应用句子级LDA模型?

Python 如何使用Gensim应用句子级LDA模型?,python,nlp,gensim,lda,Python,Nlp,Gensim,Lda,是否有可能使用Bao和Datta(2014)中提出的Gensim应用句子级LDA模型?报纸 它的显著特点是“每句话一个主题”(第1376页)。这与其他句子级方法不同,后者通常允许每个句子包含多个主题。“最直接的方法是将每个句子视为一份文件,并将LDA模型应用于句子而不是文件的收集。”(第1376页)。但是,我认为更合理的假设是一句话涉及一个主题 谢谢大家! 如果您将文档拆分为多个句子,您可以轻松地运行Brody&Elhadad(2010)所称的功能—只需将文本数据逐句输入LDA即可。然而,LDA

是否有可能使用Bao和Datta(2014)中提出的Gensim应用句子级LDA模型?报纸

它的显著特点是“每句话一个主题”(第1376页)。这与其他句子级方法不同,后者通常允许每个句子包含多个主题。“最直接的方法是将每个句子视为一份文件,并将LDA模型应用于句子而不是文件的收集。”(第1376页)。但是,我认为更合理的假设是一句话涉及一个主题


谢谢大家!

如果您将文档拆分为多个句子,您可以轻松地运行Brody&Elhadad(2010)所称的功能—只需将文本数据逐句输入LDA即可。然而,LDA仍然会为每个句子提供不止一个主题(根据定义,您可以获得所有主题的值,尽管gensim的
最小概率默认值为0.01),这当然与Bao&Datta提出的方法不同


但是,BAO和DATA(2014)的文章包含C或C++(我假设,它在自述中不说)<代码> .exe < /Cl> +材料中的使用说明。您可以从命令行运行它,或者编写一个(以gensim格式输出将是锦上添花)-如果您这样做,请共享您的代码,这可能会对其他人有所帮助。

为Python编写包装器难吗?谢谢。如果我能把输出转换成gensim格式那就太好了,因为我想把主题可视化。你能再给我一些提示吗?非常感谢。这当然不是一个五分钟就可以定制的东西,但是你可以把我链接的教程作为一个起点,了解发生了什么,然后甚至可以修改gensim的
dtmmodel
(这是David Blei最初的DTM和DIM代码的包装)。问题是你是否需要这样做。如果你只是想可视化结果,你可以在你的数据上运行Bao&Datta程序,得到输出,然后在你想要的任何程序中分析和可视化它。很高兴知道。非常感谢。