将DocumentTermMatrix用于文章行
我有两个文件:将DocumentTermMatrix用于文章行,matrix,text-mining,Matrix,Text Mining,我有两个文件: 一个大约有1000行。每行对应一篇已经清理过的报纸文章(标点符号、大写字母、不相关的单词等) 一个有约1000行,只有一列是相应的文章来源。 第一个文件X行中的文章在第二个文件X行中找到其原始内容 我使用了DocumentTermMatrix,在这里我可以对词频进行大量研究,但我不能在文章粒度级别上工作 我想做两个矩阵 第一,文章作为行(因此对应于我文件中的一行),所有可能的单词作为列(仅基于第一个文件) 第二个,原点作为行(来自第二个文件),所有可能的单词作为列(来自第一
- 一个大约有1000行。每行对应一篇已经清理过的报纸文章(标点符号、大写字母、不相关的单词等)
- 一个有约1000行,只有一列是相应的文章来源。 第一个文件X行中的文章在第二个文件X行中找到其原始内容李>
- 第一,文章作为行(因此对应于我文件中的一行),所有可能的单词作为列(仅基于第一个文件)
- 第二个,原点作为行(来自第二个文件),所有可能的单词作为列(来自第一个文件),允许我在原点和单词之间建立分类李>