如何通过R中的tm包将TDM csv文件转换为术语文档矩阵?
我有csv文件中的术语文档矩阵。比如说,如何通过R中的tm包将TDM csv文件转换为术语文档矩阵?,r,document,tm,term,R,Document,Tm,Term,我有csv文件中的术语文档矩阵。比如说, , doc1, doc2, doc3, doc4, doc5 main , 2, 0, 3, 0, 0 virtual, 4, 0, 0, 0, 1 origin , 0, 0, 1, 2, 0 如何将其转换为tm软件包中的术语文档矩阵 我认为可以从文档中的句子(单词列表)创建术语documentmatrix byTermDocumentM
, doc1, doc2, doc3, doc4, doc5
main , 2, 0, 3, 0, 0
virtual, 4, 0, 0, 0, 1
origin , 0, 0, 1, 2, 0
如何将其转换为tm软件包中的术语文档矩阵
我认为可以从文档中的句子(单词列表)创建术语documentmatrix byTermDocumentMatrix()
函数
但我已经有了术语文档矩阵,我想导入并在tm包中使用它
请告诉我方法。这里有一种方法(但在tm
包中可能有一种直接方法):
x谢谢。泰勒·林克。我试图接受你的建议,但我犯了一些错误。当我安装“qdqp”软件包时,它找不到一些zip文件。我发现这是因为版本问题。所以我手动下载新版本的文件并安装。然而,当我尝试调用Library(qdqp)时,它显示“包'qdap'是在R版本3.0.3下构建的,包'qdapDictionaries'是在R版本3.0.3下构建的。此外,当我尝试“your_tdm”时,第一个问题是因为您使用的是旧版本的R。第二个问题是警告,而不是错误。底线是,它有用吗?亲爱的泰勒。我解决了问题。我非常感谢你的帮助helps@user3436056如果这是可行的,你可能想考虑检查标记绿色,这表明这是最好的解决方案。
x <- read.csv(text=" , doc1, doc2, doc3, doc4, doc5
main , 2, 0, 3, 0, 0
virtual, 4, 0, 0, 0, 1
origin , 0, 0, 1, 2, 0", header=TRUE)
library(qdap)
dat <- x[, -1]
row.names(dat) <- x[, 1]
your_tdm <- tdm(as.wfm(dat))
tm::inspect(your_tdm)
## > tm::inspect(your_tdm)
## A term-document matrix (3 terms, 5 documents)
##
## Non-/sparse entries: 6/9
## Sparsity : 60%
## Maximal term length: 7
## Weighting : term frequency (tf)
##
## Docs
## Terms doc1 doc2 doc3 doc4 doc5
## main 2 0 3 0 0
## origin 0 0 1 2 0
## virtual 4 0 0 0 1