Machine learning 确定最佳簇数和Davies–;波尔丁指数?

Machine learning 确定最佳簇数和Davies–;波尔丁指数?,machine-learning,cluster-analysis,Machine Learning,Cluster Analysis,我试图评估对一些数据进行集群化所需的正确集群数量 我知道使用Davies–Bouldin索引(DBI)是可能的 要使用DBI,您必须为任意数量的集群计算它,并且使DBI最小化的集群对应于所需的正确数量的集群 问题是: 如何知道使用DBI的2个集群是否比1个集群更好?那么,当我只有一个集群时,如何计算DBI呢?仅仅考虑所有集群的平均值DBI显然不是一个好主意 当然,如果每个数据点都被视为自己的簇(因为每个数据点都与自己的质心重叠),则增加簇的数量-k,而不增加惩罚,将始终会减少结果簇中的DBI量,

我试图评估对一些数据进行集群化所需的正确集群数量

我知道使用Davies–Bouldin索引(DBI)是可能的

要使用DBI,您必须为任意数量的集群计算它,并且使DBI最小化的集群对应于所需的正确数量的集群

问题是:


如何知道使用DBI的2个集群是否比1个集群更好?那么,当我只有一个集群时,如何计算DBI呢?

仅仅考虑所有集群的平均值
DBI
显然不是一个好主意

当然,如果每个数据点都被视为自己的簇(因为每个数据点都与自己的质心重叠),则增加簇的数量-
k
,而不增加惩罚,将始终会减少结果簇中的DBI量,达到零的极端情况

如何知道使用DBI的2个集群是否比1个集群更好?那么,当我只有一个集群时,如何计算DBI呢

因此,如果只使用平均
DBI
作为性能指标,很难说哪一个更好

一个很好的实用方法是使用

另一种方法将方差百分比解释为集群数量的函数:您应该选择一个集群数量,这样添加另一个集群不会提供更好的数据建模。更准确地说,如果将集群解释的方差百分比与集群数量进行对比,则第一个集群将添加大量信息(解释大量方差),但在某个点,边际收益将下降,从而在图中给出一个角度。此时选择簇的数量,因此采用“弯头标准”

选择最佳集群数量的其他一些好选择: