Nlp 将每行一个文档转换为Blei';主题建模的lda-c/dtm格式?

Nlp 将每行一个文档转换为Blei';主题建模的lda-c/dtm格式?,nlp,dataform,lda,Nlp,Dataform,Lda,我正在做一些研究的潜在狄利克莱分析,并不断遇到一个问题。大多数lda软件要求文档采用doclines格式,即CSV或其他分隔文件,其中每一行代表文档的整体。但是,动态主题模型软件要求数据的格式为:[M][term_1]:[count][term_2]:[count]。。。[term\u N]:[count]其中[M]是文档中唯一术语的数量,与每个术语相关联的[count]是该术语出现的次数 在文件中。请注意,[term_1]是一个整数,用于索引 学期它不是一根弦 有人知道一个可以让我快速转换成这

我正在做一些研究的潜在狄利克莱分析,并不断遇到一个问题。大多数lda软件要求文档采用doclines格式,即CSV或其他分隔文件,其中每一行代表文档的整体。但是,动态主题模型软件要求数据的格式为:
[M][term_1]:[count][term_2]:[count]。。。[term\u N]:[count]
其中
[M]
是文档中唯一术语的数量,与每个术语相关联的[count]是该术语出现的次数 在文件中。请注意,
[term_1]
是一个整数,用于索引 学期它不是一根弦


有人知道一个可以让我快速转换成这种格式的实用程序吗?谢谢。

如果您使用的是
R
lda
软件包包含一个函数
lexicalize
,该函数将原始文本转换为
lda
软件包所需的lda-c格式

example <- c("I am the very model of a modern major general",
             "I have a major headache")

corpus <- lexicalize(example, lower=TRUE) 

exampleGensim提供了Blei语料库格式的实现。看见您可以基于中的CSV文件编写一个快速语料库,然后使用gensim将其保存在lda-c中。不应太难。

< P>麻州大学阿默斯特的锤包是另一种选择。

下面是一个关于如何使用木槌的精彩演示:


您可以将mallet与普通文本文件一起用作输入源。

对于Python,有一个可用的函数用于此操作(在提问时可能不可用)


文档是

我遇到了类似的问题,您是否碰巧找到了解决方案?谢谢。我还没有实现它,但是已经发布到主题模型邮件列表中,并且应该获取文本文件并将其转换为正确的格式。非常感谢,这非常有帮助。
lda.utils.dtm2ldac