将DocumentTermMatrix用于文章行_Matrix_Text Mining

将DocumentTermMatrix用于文章行

matrix

将DocumentTermMatrix用于文章行,matrix,text-mining,Matrix,Text Mining,我有两个文件：一个大约有1000行。每行对应一篇已经清理过的报纸文章（标点符号、大写字母、不相关的单词等）一个有约1000行，只有一列是相应的文章来源。第一个文件X行中的文章在第二个文件X行中找到其原始内容我使用了DocumentTermMatrix，在这里我可以对词频进行大量研究，但我不能在文章粒度级别上工作我想做两个矩阵第一，文章作为行（因此对应于我文件中的一行），所有可能的单词作为列（仅基于第一个文件）第二个，原点作为行（来自第二个文件），所有可能的单词作为列（来自第一

我有两个文件：

一个大约有1000行。每行对应一篇已经清理过的报纸文章（标点符号、大写字母、不相关的单词等）
一个有约1000行，只有一列是相应的文章来源。第一个文件X行中的文章在第二个文件X行中找到其原始内容

我使用了DocumentTermMatrix，在这里我可以对词频进行大量研究，但我不能在文章粒度级别上工作

我想做两个矩阵

第一，文章作为行（因此对应于我文件中的一行），所有可能的单词作为列（仅基于第一个文件）
第二个，原点作为行（来自第二个文件），所有可能的单词作为列（来自第一个文件），允许我在原点和单词之间建立分类

你能让我知道我怎样才能最好地在R中构建这些矩阵，有没有DocumentTermMatrix

我可以先用另一个工具将文件拆分成1000个文件，然后使用DocumentTermMatrix，但我更喜欢用R脚本直接管理合并的文件，每行一篇文章