ClusterR-最优初始方法

ClusterR-最优初始方法,r,cluster-analysis,R,Cluster Analysis,使用ClusterR进行集群的初始化方法的文档非常神秘。您是否能够发布一篇描述最优_init方法的论文的参考 官方声明如下: 最优初始化:此初始值设定项以增量方式添加数据行,同时检查它们是否已存在于质心矩阵中ClusterR包的KMeans\u rcpp和MiniBatchKmeans中使用的初始值设定项为: 随机(随机选择数据行作为初始质心) kmeans++(参考:和) 分位数_init(它使用分位数和累积距离拾取初始质心)和 最优_init(通过首先检查拾取的质心中是否存在观测值,以增量

使用ClusterR进行集群的初始化方法的文档非常神秘。您是否能够发布一篇描述最优_init方法的论文的参考

官方声明如下:


最优初始化:此初始值设定项以增量方式添加数据行,同时检查它们是否已存在于质心矩阵中

ClusterR包的KMeans\u rcpp和MiniBatchKmeans中使用的初始值设定项为:

  • 随机(随机选择数据行作为初始质心)
  • kmeans++(参考:和)
  • 分位数_init(它使用分位数和累积距离拾取初始质心)和
  • 最优_init(通过首先检查拾取的质心中是否存在观测值,以增量方式向质心添加观测值)
我在包中添加了最后两个(quantile_init和optimal_init),因为我在各种数据集中测试后发现,它们给出了类似(或更好)的结果(使用验证度量)和/或运行更快。它们都是实验性的,而且(你是对的)在下一个版本的软件包中,我将在文档细节中添加一个注释。您可以看到和的rcpp代码 在软件包存储库中。

也许这样做会有所帮助。