R 具有Levenshtein距离的文本聚类-内存不足问题_R_Memory Management_Cluster Analysis_Hierarchical Clustering_Levenshtein Distance

R 具有Levenshtein距离的文本聚类-内存不足问题

r memory-management

R 具有Levenshtein距离的文本聚类-内存不足问题,r,memory-management,cluster-analysis,hierarchical-clustering,levenshtein-distance,R,Memory Management,Cluster Analysis,Hierarchical Clustering,Levenshtein Distance,我已经尝试了这个基于Levenshtein距离的分层聚类解决方案，如回答中所述：其代码如下所示： set.seed(1) rstr <- function(n,k){ # vector of n random char(k) strings sapply(1:n,function(i){do.call(paste0,as.list(sample(letters,k,replace=T)))}) } str<- c(paste0("aa",rstr(10

我已经尝试了这个基于Levenshtein距离的分层聚类解决方案，如回答中所述：

其代码如下所示：

set.seed(1)
rstr <- function(n,k){   # vector of n random char(k) strings
  sapply(1:n,function(i){do.call(paste0,as.list(sample(letters,k,replace=T)))})
}

str<- c(paste0("aa",rstr(10,3)),paste0("bb",rstr(10,3)),paste0("cc",rstr(10,3)))
# Levenshtein Distance
d  <- adist(str)
rownames(d) <- str
hc <- hclust(as.dist(d))
plot(hc)
rect.hclust(hc,k=3)
df <- data.frame(str,cutree(hc,k=3))

我需要集群的字符串总数实际上大约为500000。那么，有没有办法解决这个问题？

在15000个字符串时，距离矩阵将有22500000个条目。500000字符串时，距离矩阵将有25000000000个条目。内存不足并不奇怪，这是真的。那么有没有其他有效的方法来解决这个问题呢？你可以尝试类似于在

Error: cannot allocate vector of size 74.5 Gb