R 包装商标。kmeans的问题_R_Statistics_Cluster Analysis_K Means_Text Mining

R 包装商标。kmeans的问题

r statistics

R 包装商标。kmeans的问题,r,statistics,cluster-analysis,k-means,text-mining,R,Statistics,Cluster Analysis,K Means,Text Mining,我有一个关于R中的k-均值聚类的问题。实际上，我是根据这个做所有事情的。所有内容都基于tm包中的示例，因此不需要数据导入。acq包含50份文件和20份原始文件 library(tm) data("acq") data("crude") ws <- c(acq, crude) wsTDM <- Data(TermDocumentMatrix(ws)) #First problem here wsKMeans <- kmeans(wsTDM, 2) wsReutersCluster

我有一个关于R中的k-均值聚类的问题。实际上，我是根据这个做所有事情的。所有内容都基于tm包中的示例，因此不需要数据导入。acq包含50份文件和20份原始文件

library(tm)
data("acq")
data("crude")
ws <- c(acq, crude)
wsTDM <- Data(TermDocumentMatrix(ws)) #First problem here
wsKMeans <- kmeans(wsTDM, 2)
wsReutersCluster <- c(rep("acq", 50), rep("crude", 20))
cl_agreement(wsKMeans, as.cl_partition(wsReutersCluster), "diag")

Error in lapply(X, FUN, ...) : 
(list) object cannot be coerced to type 'integer'

library（tm）
数据（“acq”）
数据（“原油”）
wsTDM存储为稀疏矩阵，如？TermDocumentMatrix
中所述。这也可以从检查对象（如str（wsTDM）
）中看出。旧的Data（）
函数只是作为常规矩阵访问内容的一种方式。不再需要它了。只要执行kmeans（wsTDM，2）
，您就会看到输出与预期一样，在70个特性（文档）上为2775个观察值（术语）确定了集群。祝你好运
 我打算做的是对我的文档进行集群。现在我正在对术语进行聚类。不是这样吗？如何对文档而不是术语进行聚类（使用k-means，而不是分层）？据我所知，这是在那篇旧文章中完成的，因为后来的作者编写了文档的共同协议矩阵，但没有条款。我这样认为是因为as.cl\u分区（wsReutersCluster）
函数。我真的很想创建cl\u协议
@user974514也许你想要DocumentTermMatrix（）
？