ClusterR-最优初始方法_R_Cluster Analysis

ClusterR-最优初始方法

ClusterR-最优初始方法,r,cluster-analysis,R,Cluster Analysis,使用ClusterR进行集群的初始化方法的文档非常神秘。您是否能够发布一篇描述最优_init方法的论文的参考官方声明如下：最优初始化：此初始值设定项以增量方式添加数据行，同时检查它们是否已存在于质心矩阵中ClusterR包的KMeans\u rcpp和MiniBatchKmeans中使用的初始值设定项为：随机（随机选择数据行作为初始质心） kmeans++（参考：和）分位数_init（它使用分位数和累积距离拾取初始质心）和最优_init（通过首先检查拾取的质心中是否存在观测值，以增量

使用ClusterR进行集群的初始化方法的文档非常神秘。您是否能够发布一篇描述最优_init方法的论文的参考

官方声明如下：

最优初始化：此初始值设定项以增量方式添加数据行，同时检查它们是否已存在于质心矩阵中

ClusterR包的KMeans\u rcpp和MiniBatchKmeans中使用的初始值设定项为：

随机（随机选择数据行作为初始质心）
kmeans++（参考：和）
分位数_init（它使用分位数和累积距离拾取初始质心）和
最优_init（通过首先检查拾取的质心中是否存在观测值，以增量方式向质心添加观测值）

我在包中添加了最后两个（quantile_init和optimal_init），因为我在各种数据集中测试后发现，它们给出了类似（或更好）的结果（使用验证度量）和/或运行更快。它们都是实验性的，而且（你是对的）在下一个版本的软件包中，我将在文档细节中添加一个注释。您可以看到和的rcpp代码在软件包存储库中。

也许这样做会有所帮助。