tm软件包:在矩阵中而不是在R中的列表中输出findAssocs()
考虑以下列表:tm软件包:在矩阵中而不是在R中的列表中输出findAssocs(),r,matrix,tm,term-document-matrix,R,Matrix,Tm,Term Document Matrix,考虑以下列表: library(tm) data("crude") tdm <- TermDocumentMatrix(crude) a <- findAssocs(tdm, c("oil", "opec", "xyz"), c(0.7, 0.75, 0.1)) library(tm) 数据(“原油”) tdm这里有一个解决方案,使用重塑2来帮助重塑数据 library(reshape2) aa<-do.call(rbind, Map(function(d, n)
library(tm)
data("crude")
tdm <- TermDocumentMatrix(crude)
a <- findAssocs(tdm, c("oil", "opec", "xyz"), c(0.7, 0.75, 0.1))
library(tm)
数据(“原油”)
tdm这里有一个解决方案,使用重塑2
来帮助重塑数据
library(reshape2)
aa<-do.call(rbind, Map(function(d, n)
cbind.data.frame(
xterm=if (length(d)>0) names(d) else NA,
cor=if(length(d)>0) d else NA,
term=n),
a, names(a))
)
dcast(aa, term~xterm, value.var="cor")
library(重塑2)
aa0)姓名(d)其他不适用,
cor=如果(长度(d)>0)d,则不适用,
术语=n),
a、 姓名(a))
)
dcast(aa,term~xterm,value.var=“cor”)
或者您可以使用dplyr
和tidyr
library(dplyr)
library('devtools')
install_github('hadley/tidyr')
library(tidyr)
a1 <- unnest(lapply(a, function(x) data.frame(xterm=names(x),
cor=x, stringsAsFactors=FALSE)), term)
a1 %>%
spread(xterm, cor) #here it removed terms without any `cor` for the `xterm`
# term 15.8 ability above agreement analysts buyers clearly emergency fixed
#1 oil 0.87 NA 0.76 0.71 0.79 0.70 0.8 0.75 0.73
#2 opec 0.85 0.8 0.82 0.76 0.85 0.83 NA 0.87 NA
# late market meeting prices prices. said that they trying who winter
#1 0.8 0.75 0.77 0.72 NA 0.78 0.73 NA 0.8 0.8 0.8
#2 NA NA 0.88 NA 0.79 0.82 NA 0.8 NA NA NA
库(dplyr)
库(“devtools”)
安装_github('hadley/tidyr'))
图书馆(tidyr)
a1%
spread(xterm,cor)#在这里,它删除了没有任何“cor”表示“xterm”的术语`
#条款15.8上述协议分析员的能力明确规定了紧急情况
#1机油0.87钠0.76 0.71 0.79 0.70 0.8 0.75 0.73
#2欧佩克0.85 0.8 0.82 0.76 0.85 0.83纳0.87纳
#后期市场价格。说他们在试谁过冬
#1 0.80.75 0.77 0.72 NA 0.78 0.73 NA 0.80.80.8
#2钠0.88钠0.79 0.82钠0.8钠
更新
a
如果a
是:a@Steven Beaupre该a
是从你的帖子中获取的a@Steven Beaupre完成它需要很长时间吗?是的,完成它需要很长时间。@Steven Beaupre`我稍后会检查它,因为我现在必须去。根据你新的a
更新了解决方案。我有点不明白为什么a它不起作用,因为findAssocs(tdm,c(“石油”,“欧佩克”,“xyz”),0.7)
将c(“石油”,“欧佩克”,“xyz”)
与语料库中的所有剩余术语进行比较。例如,它没有将“石油”与“欧佩克”进行比较。它不会计算传入向量中的项的成对相关性。所以,当你通过语料库中的每一个术语时,没有什么可以比较的了,所以你没有得到任何结果。
aNew <- sapply(tdm$dimnames$Terms, function(i) findAssocs(tdm, i, corlimit=0.95))
aNew2 <- aNew[!!sapply(aNew, function(x) length(dim(x)))]
aNew3 <- unnest(lapply(aNew2, function(x) data.frame(xterm=rownames(x),
cor=x[,1], stringsAsFactors=FALSE)[1:3,]), term)
res <- aNew3 %>%
spread(xterm, cor)
dim(res)
#[1] 1021 160
res[1:3,1:5]
# term ... 100,000 10.8 1.1
#1 ... NA NA NA NA
#2 100,000 NA NA NA 1
#3 10.8 NA NA NA NA