R 具有非自变量和超大数据集的聚类

R 具有非自变量和超大数据集的聚类,r,cluster-analysis,R,Cluster Analysis,我有一个非常大的数据集~400000个实例,看起来像下面的数据 data <- as.data.frame(matrix(0, 10, 5)) samp <- function(){ x <-sample( c(0:9), 5, replace =TRUE, prob = c(0.5, 0.1, 0.05, 0.05, 0.05, 0.05, 0.05, 0.05, 0.05, 0.05)) return(x) } data <- lapply(split(da

我有一个非常大的数据集~400000个实例,看起来像下面的数据

data  <- as.data.frame(matrix(0, 10, 5))
samp <- function(){
  x <-sample( c(0:9), 5, replace =TRUE, prob = c(0.5, 0.1, 0.05, 0.05, 0.05, 0.05, 0.05, 0.05, 0.05, 0.05))
  return(x)
}
data <- lapply(split(data, c(1:10)), function(x)  samp() )
data <- do.call(rbind.data.frame, data)
colnames(data) <- c("fail","below_a",  "aver", "above_a", "exceed")
data$class_size <- apply(data[1:5] , 1, FUN = sum) 
class_prof <- sample(letters[1:6], nrow(data), replace = T)   
data$class_prof <- class_prof

data尝试对数据进行主成分分析,然后根据您决定的维度数进行kmeans或knn

有两个不同的软件包可以非常直接地使用它,您必须在使用之前对数据进行集中和缩放。您还必须使用单选方法将任何因子转换为数值(原始因子列的每个可能因子对应一列)


看看“prcomp”或“princomp”

谢谢你,乔希,我想了想,试了一下。。问题是,我需要能够解释和分析与原始变量相关的集群。另外,我现在只有7维,我认为这是可以的,问题是实例的数量和计算相异矩阵的可能性,许多方法都使用。另一个问题可能是,前五列是稀疏的——如果类很小,通常只有一个或两个非0值。