R 包装商标。kmeans的问题
我有一个关于R中的k-均值聚类的问题。实际上,我是根据这个做所有事情的。所有内容都基于tm包中的示例,因此不需要数据导入。acq包含50份文件和20份原始文件R 包装商标。kmeans的问题,r,statistics,cluster-analysis,k-means,text-mining,R,Statistics,Cluster Analysis,K Means,Text Mining,我有一个关于R中的k-均值聚类的问题。实际上,我是根据这个做所有事情的。所有内容都基于tm包中的示例,因此不需要数据导入。acq包含50份文件和20份原始文件 library(tm) data("acq") data("crude") ws <- c(acq, crude) wsTDM <- Data(TermDocumentMatrix(ws)) #First problem here wsKMeans <- kmeans(wsTDM, 2) wsReutersCluster
library(tm)
data("acq")
data("crude")
ws <- c(acq, crude)
wsTDM <- Data(TermDocumentMatrix(ws)) #First problem here
wsKMeans <- kmeans(wsTDM, 2)
wsReutersCluster <- c(rep("acq", 50), rep("crude", 20))
cl_agreement(wsKMeans, as.cl_partition(wsReutersCluster), "diag")
Error in lapply(X, FUN, ...) :
(list) object cannot be coerced to type 'integer'
library(tm)
数据(“acq”)
数据(“原油”)
wsTDM存储为稀疏矩阵,如?TermDocumentMatrix
中所述。这也可以从检查对象(如str(wsTDM)
)中看出。旧的Data()
函数只是作为常规矩阵访问内容的一种方式。不再需要它了。只要执行kmeans(wsTDM,2)
,您就会看到输出与预期一样,在70个特性(文档)上为2775个观察值(术语)确定了集群。祝你好运 我打算做的是对我的文档进行集群。现在我正在对术语进行聚类。不是这样吗?如何对文档而不是术语进行聚类(使用k-means,而不是分层)?据我所知,这是在那篇旧文章中完成的,因为后来的作者编写了文档的共同协议矩阵,但没有条款。我这样认为是因为as.cl\u分区(wsReutersCluster)
函数。我真的很想创建cl\u协议
@user974514也许你想要DocumentTermMatrix()
?