Nlp 将每行一个文档转换为Blei'；主题建模的lda-c/dtm格式？_Nlp_Dataform_Lda

Nlp 将每行一个文档转换为Blei'；主题建模的lda-c/dtm格式？

nlp

Nlp 将每行一个文档转换为Blei'；主题建模的lda-c/dtm格式？,nlp,dataform,lda,Nlp,Dataform,Lda,我正在做一些研究的潜在狄利克莱分析，并不断遇到一个问题。大多数lda软件要求文档采用doclines格式，即CSV或其他分隔文件，其中每一行代表文档的整体。但是，动态主题模型软件要求数据的格式为：[M][term_1]：[count][term_2]：[count]。。。[term\u N]：[count]其中[M]是文档中唯一术语的数量，与每个术语相关联的[count]是该术语出现的次数在文件中。请注意，[term_1]是一个整数，用于索引学期它不是一根弦有人知道一个可以让我快速转换成这

我正在做一些研究的潜在狄利克莱分析，并不断遇到一个问题。大多数lda软件要求文档采用doclines格式，即CSV或其他分隔文件，其中每一行代表文档的整体。但是，动态主题模型软件要求数据的格式为：

[M][term_1]：[count][term_2]：[count]。。。[term\u N]：[count]

其中

[M]

是文档中唯一术语的数量，与每个术语相关联的[count]是该术语出现的次数在文件中。请注意，

[term_1]

是一个整数，用于索引学期它不是一根弦

有人知道一个可以让我快速转换成这种格式的实用程序吗？谢谢。

如果您使用的是

，

lda

软件包包含一个函数

lexicalize

，该函数将原始文本转换为

lda

软件包所需的lda-c格式

example <- c("I am the very model of a modern major general",
             "I have a major headache")

corpus <- lexicalize(example, lower=TRUE)

exampleGensim提供了Blei语料库格式的实现。看见您可以基于中的CSV文件编写一个快速语料库，然后使用gensim将其保存在lda-c中。不应太难。
 < P>麻州大学阿默斯特的锤包是另一种选择。




下面是一个关于如何使用木槌的精彩演示：



您可以将mallet与普通文本文件一起用作输入源。
对于Python，有一个可用的函数用于此操作（在提问时可能不可用）
文档是我遇到了类似的问题，您是否碰巧找到了解决方案？谢谢。我还没有实现它，但是已经发布到主题模型邮件列表中，并且应该获取文本文件并将其转换为正确的格式。非常感谢，这非常有帮助。
lda.utils.dtm2ldac