R 提高集群性能_R_Cluster Analysis_K Means

R 提高集群性能

R 提高集群性能,r,cluster-analysis,k-means,R,Cluster Analysis,K Means,我正在使用kmodes对一个包含分类数据的数据集进行聚类，这开始花费太长时间。我正在考虑两种方法： 1）减少迭代次数2）随机选取较小的数据子集，获取质心，然后根据最近的质心将其余数据分配给一个簇我想知道这两种方法之间的折衷是什么，或者是否还有其他我没有想到的方法。您的数据集有多大？您的实现有多好？如果它使用大量的R代码，考虑在C或FORTRAN中重写它的性能。朴素的R代码很容易比本机代码慢10倍。使用更聪明的数据结构（在R中很难有效地实现）可能会使您获得另一个10-100倍的系数。

我正在使用kmodes对一个包含分类数据的数据集进行聚类，这开始花费太长时间。我正在考虑两种方法： 1）减少迭代次数2）随机选取较小的数据子集，获取质心，然后根据最近的质心将其余数据分配给一个簇

我想知道这两种方法之间的折衷是什么，或者是否还有其他我没有想到的方法。

您的数据集有多大？您的实现有多好？如果它使用大量的R代码，考虑在C或FORTRAN中重写它的性能。朴素的R代码很容易比本机代码慢10倍。使用更聪明的数据结构（在R中很难有效地实现）可能会使您获得另一个10-100倍的系数。