Machine learning 如何在新闻文章中使用gensim for lda?

Machine learning 如何在新闻文章中使用gensim for lda?,machine-learning,lda,gensim,Machine Learning,Lda,Gensim,我试图从大量的新闻文章中检索主题列表,我计划使用gensim为每个文档使用LDA提取主题分布。我想知道lda的gensim实现所需的已处理文章的格式,以及如何将原始文章转换为该格式。我在wikipedia dump上看到了这个关于使用lda的链接,但我发现语料库处于已处理状态,其格式在任何地方都没有提及我不知道我是否正确地解决了这个问题,但gensim支持多个语料库。你可以找到它们的列表 如果要处理自然语言,必须首先标记文本。您可以在gensim网站上按照分步教程进行操作。解释得很好。有一个离线

我试图从大量的新闻文章中检索主题列表,我计划使用gensim为每个文档使用LDA提取主题分布。我想知道lda的gensim实现所需的已处理文章的格式,以及如何将原始文章转换为该格式。我在wikipedia dump上看到了这个关于使用lda的链接,但我发现语料库处于已处理状态,其格式在任何地方都没有提及

我不知道我是否正确地解决了这个问题,但gensim支持多个语料库。你可以找到它们的列表


如果要处理自然语言,必须首先标记文本。您可以在gensim网站上按照分步教程进行操作。解释得很好。

有一个离线学习步骤和一个在线功能创建步骤

离线学习

假设你有一个很大的语料库,比如维基百科,或者下载了一堆新闻文章

对于每个物品/文件:

  • 你得到了原始文本
  • 你把它柠檬化了。Gensim有utils.lemmatize
  • 你可以创建一本字典
  • 您创建了一个单词表示包
  • 然后训练TF-IDF模型,并将整个语料库转换为TF-IDF空间。 最后,在“TF-IDF语料库”上训练LDA模型

    在线

    对于即将发布的新闻文章,您可以执行几乎相同的操作:

  • 柠檬化
  • 使用字典创建一包单词表示
  • 使用TF-IDF模型将其转换为TF-IDF空间
  • 将其转换为LDA空间

  • 你能说,如何从lda空间转换回正常空间,我不明白。你的意思是说你在一个文档上有主题分布,并且想把文档放在TF-IDF空间中?