R 提高集群性能

R 提高集群性能,r,cluster-analysis,k-means,R,Cluster Analysis,K Means,我正在使用kmodes对一个包含分类数据的数据集进行聚类,这开始花费太长时间。我正在考虑两种方法: 1) 减少迭代次数2)随机选取较小的数据子集,获取质心,然后根据最近的质心将其余数据分配给一个簇 我想知道这两种方法之间的折衷是什么,或者是否还有其他我没有想到的方法。您的数据集有多大?您的实现有多好?如果它使用大量的R代码,考虑在C或FORTRAN中重写它的性能。朴素的R代码很容易比本机代码慢10倍。使用更聪明的数据结构(在R中很难有效地实现)可能会使您获得另一个10-100倍的系数。

我正在使用kmodes对一个包含分类数据的数据集进行聚类,这开始花费太长时间。我正在考虑两种方法: 1) 减少迭代次数2)随机选取较小的数据子集,获取质心,然后根据最近的质心将其余数据分配给一个簇


我想知道这两种方法之间的折衷是什么,或者是否还有其他我没有想到的方法。

您的数据集有多大?您的实现有多好?如果它使用大量的R代码,考虑在C或FORTRAN中重写它的性能。朴素的R代码很容易比本机代码慢10倍。使用更聪明的数据结构(在R中很难有效地实现)可能会使您获得另一个10-100倍的系数。