将DocumentTermMatrix用于文章行

将DocumentTermMatrix用于文章行,matrix,text-mining,Matrix,Text Mining,我有两个文件: 一个大约有1000行。每行对应一篇已经清理过的报纸文章(标点符号、大写字母、不相关的单词等) 一个有约1000行,只有一列是相应的文章来源。 第一个文件X行中的文章在第二个文件X行中找到其原始内容 我使用了DocumentTermMatrix,在这里我可以对词频进行大量研究,但我不能在文章粒度级别上工作 我想做两个矩阵 第一,文章作为行(因此对应于我文件中的一行),所有可能的单词作为列(仅基于第一个文件) 第二个,原点作为行(来自第二个文件),所有可能的单词作为列(来自第一

我有两个文件:

  • 一个大约有1000行。每行对应一篇已经清理过的报纸文章(标点符号、大写字母、不相关的单词等)
  • 一个有约1000行,只有一列是相应的文章来源。 第一个文件X行中的文章在第二个文件X行中找到其原始内容
我使用了DocumentTermMatrix,在这里我可以对词频进行大量研究,但我不能在文章粒度级别上工作

我想做两个矩阵

  • 第一,文章作为行(因此对应于我文件中的一行),所有可能的单词作为列(仅基于第一个文件)
  • 第二个,原点作为行(来自第二个文件),所有可能的单词作为列(来自第一个文件),允许我在原点和单词之间建立分类
你能让我知道我怎样才能最好地在R中构建这些矩阵,有没有DocumentTermMatrix

我可以先用另一个工具将文件拆分成1000个文件,然后使用DocumentTermMatrix,但我更喜欢用R脚本直接管理合并的文件,每行一篇文章