R 计算大数据的相异矩阵_R_Cluster Computing_R Daisy

R 计算大数据的相异矩阵

r cluster-computing

R 计算大数据的相异矩阵,r,cluster-computing,r-daisy,R,Cluster Computing,R Daisy,我试图计算一个基于大数据框架的相异矩阵，该框架具有数字和分类特征。当我从中运行daisy功能时，会收到错误消息：错误：无法分配大小为X的向量在我的例子中，X大约是800gb。你知道我怎么处理这个问题吗？此外，如果有人能帮助我在并行内核中运行该函数，那也太好了。在下面，您可以找到计算iris数据集上差异矩阵的函数： require(cluster) d <- daisy(iris) require（集群） d我以前也有过类似的问题。即使在我的数据集中的5k行上运行daisy（），也需要

我试图计算一个基于大数据框架的相异矩阵，该框架具有数字和分类特征。当我从中运行

daisy

功能时，会收到错误消息：

错误：无法分配大小为X的向量

在我的例子中，X大约是800gb。你知道我怎么处理这个问题吗？此外，如果有人能帮助我在并行内核中运行该函数，那也太好了。在下面，您可以找到计算iris数据集上差异矩阵的函数：

require(cluster)
d <- daisy(iris)

require（集群）
d我以前也有过类似的问题。即使在我的数据集中的5k行上运行daisy（）
，也需要很长时间
最后，我在h2o
包中使用了kmeans
算法，该算法对分类数据进行并行和1-hot编码。在将数据插入h2o.kmeans
之前，我只需确保将数据集中并缩放（平均值为0 w/stdev=1）。这使得聚类算法不会对具有较大名义差异的列进行优先级排序（因为它试图最小化距离计算）。我使用了scale（）
函数
安装h2o后：
h2o.init(nthreads = 16, min_mem_size = '150G')
h2o.df <- as.h2o(df)
h2o_kmeans <- h2o.kmeans(training_frame = h2o.df, x = vars, k = 5, estimate_k = FALSE, seed = 1234)
summary(h2o_kmeans)

h2o.init（nthreads=16，最小内存大小='150G'）
你介意添加更多细节吗，为什么这不是重复？从一个快速看，它确实看起来像一个重复的帖子，但有额外的信息。我不明白如果你没有足够的内存，你怎么会期望并行化有帮助。你估计过结果矩阵会有多大吗？我已经结束了你之前的问题。不，它们是相互关联的问题。不要把它们分开。你经常可以以牺牲速度来解决内存问题。你需要一种比暴力更聪明的方法。