R 计算大数据的相异矩阵

R 计算大数据的相异矩阵,r,cluster-computing,r-daisy,R,Cluster Computing,R Daisy,我试图计算一个基于大数据框架的相异矩阵,该框架具有数字和分类特征。当我从中运行daisy功能时,会收到错误消息: 错误:无法分配大小为X的向量 在我的例子中,X大约是800gb。你知道我怎么处理这个问题吗?此外,如果有人能帮助我在并行内核中运行该函数,那也太好了。在下面,您可以找到计算iris数据集上差异矩阵的函数: require(cluster) d <- daisy(iris) require(集群) d我以前也有过类似的问题。即使在我的数据集中的5k行上运行daisy(),也需要

我试图计算一个基于大数据框架的相异矩阵,该框架具有数字和分类特征。当我从中运行
daisy
功能时,会收到错误消息:

错误:无法分配大小为X的向量

在我的例子中,X大约是800gb。你知道我怎么处理这个问题吗?此外,如果有人能帮助我在并行内核中运行该函数,那也太好了。在下面,您可以找到计算iris数据集上差异矩阵的函数:

require(cluster)
d <- daisy(iris)
require(集群)

d我以前也有过类似的问题。即使在我的数据集中的5k行上运行
daisy()
,也需要很长时间

最后,我在
h2o
包中使用了
kmeans
算法,该算法对分类数据进行并行和1-hot编码。在将数据插入
h2o.kmeans
之前,我只需确保将数据集中并缩放(平均值为0 w/stdev=1)。这使得聚类算法不会对具有较大名义差异的列进行优先级排序(因为它试图最小化距离计算)。我使用了
scale()
函数

安装h2o后:

h2o.init(nthreads = 16, min_mem_size = '150G')
h2o.df <- as.h2o(df)
h2o_kmeans <- h2o.kmeans(training_frame = h2o.df, x = vars, k = 5, estimate_k = FALSE, seed = 1234)
summary(h2o_kmeans)
h2o.init(nthreads=16,最小内存大小='150G')

你介意添加更多细节吗,为什么这不是重复?从一个快速看,它确实看起来像一个重复的帖子,但有额外的信息。我不明白如果你没有足够的内存,你怎么会期望并行化有帮助。你估计过结果矩阵会有多大吗?我已经结束了你之前的问题。不,它们是相互关联的问题。不要把它们分开。你经常可以以牺牲速度来解决内存问题。你需要一种比暴力更聪明的方法。