Machine learning 确定最佳簇数和Davies–；波尔丁指数？_Machine Learning_Cluster Analysis

Machine learning 确定最佳簇数和Davies–；波尔丁指数？

machine-learning

Machine learning 确定最佳簇数和Davies–；波尔丁指数？,machine-learning,cluster-analysis,Machine Learning,Cluster Analysis,我试图评估对一些数据进行集群化所需的正确集群数量我知道使用Davies–Bouldin索引（DBI）是可能的要使用DBI，您必须为任意数量的集群计算它，并且使DBI最小化的集群对应于所需的正确数量的集群问题是: 如何知道使用DBI的2个集群是否比1个集群更好？那么，当我只有一个集群时，如何计算DBI呢？仅仅考虑所有集群的平均值DBI显然不是一个好主意当然，如果每个数据点都被视为自己的簇（因为每个数据点都与自己的质心重叠），则增加簇的数量-k，而不增加惩罚，将始终会减少结果簇中的DBI量，

我试图评估对一些数据进行集群化所需的正确集群数量

我知道使用Davies–Bouldin索引（DBI）是可能的

要使用DBI，您必须为任意数量的集群计算它，并且使DBI最小化的集群对应于所需的正确数量的集群

问题是:

如何知道使用DBI的2个集群是否比1个集群更好？那么，当我只有一个集群时，如何计算DBI呢？

仅仅考虑所有集群的平均值

DBI

显然不是一个好主意

当然，如果每个数据点都被视为自己的簇（因为每个数据点都与自己的质心重叠），则增加簇的数量-

，而不增加惩罚，将始终会减少结果簇中的DBI量，达到零的极端情况

如何知道使用DBI的2个集群是否比1个集群更好？那么，当我只有一个集群时，如何计算DBI呢

因此，如果只使用平均

DBI

作为性能指标，很难说哪一个更好

一个很好的实用方法是使用

另一种方法将方差百分比解释为集群数量的函数：您应该选择一个集群数量，这样添加另一个集群不会提供更好的数据建模。更准确地说，如果将集群解释的方差百分比与集群数量进行对比，则第一个集群将添加大量信息（解释大量方差），但在某个点，边际收益将下降，从而在图中给出一个角度。此时选择簇的数量，因此采用“弯头标准”

选择最佳集群数量的其他一些好选择：