Nlp 将每行一个文档转换为Blei';主题建模的lda-c/dtm格式?
我正在做一些研究的潜在狄利克莱分析,并不断遇到一个问题。大多数lda软件要求文档采用doclines格式,即CSV或其他分隔文件,其中每一行代表文档的整体。但是,动态主题模型软件要求数据的格式为:Nlp 将每行一个文档转换为Blei';主题建模的lda-c/dtm格式?,nlp,dataform,lda,Nlp,Dataform,Lda,我正在做一些研究的潜在狄利克莱分析,并不断遇到一个问题。大多数lda软件要求文档采用doclines格式,即CSV或其他分隔文件,其中每一行代表文档的整体。但是,动态主题模型软件要求数据的格式为:[M][term_1]:[count][term_2]:[count]。。。[term\u N]:[count]其中[M]是文档中唯一术语的数量,与每个术语相关联的[count]是该术语出现的次数 在文件中。请注意,[term_1]是一个整数,用于索引 学期它不是一根弦 有人知道一个可以让我快速转换成这
[M][term_1]:[count][term_2]:[count]。。。[term\u N]:[count]
其中[M]
是文档中唯一术语的数量,与每个术语相关联的[count]是该术语出现的次数
在文件中。请注意,[term_1]
是一个整数,用于索引
学期它不是一根弦
有人知道一个可以让我快速转换成这种格式的实用程序吗?谢谢。如果您使用的是
R
,lda
软件包包含一个函数lexicalize
,该函数将原始文本转换为lda
软件包所需的lda-c格式
example <- c("I am the very model of a modern major general",
"I have a major headache")
corpus <- lexicalize(example, lower=TRUE)
exampleGensim提供了Blei语料库格式的实现。看见您可以基于中的CSV文件编写一个快速语料库,然后使用gensim将其保存在lda-c中。不应太难。 < P>麻州大学阿默斯特的锤包是另一种选择。
下面是一个关于如何使用木槌的精彩演示:
您可以将mallet与普通文本文件一起用作输入源。对于Python,有一个可用的函数用于此操作(在提问时可能不可用)
文档是我遇到了类似的问题,您是否碰巧找到了解决方案?谢谢。我还没有实现它,但是已经发布到主题模型邮件列表中,并且应该获取文本文件并将其转换为正确的格式。非常感谢,这非常有帮助。
lda.utils.dtm2ldac