Database 簇的形状和大小

Database 簇的形状和大小,database,cluster-analysis,data-mining,Database,Cluster Analysis,Data Mining,我想问一个关于簇的形状和大小是如何用数学方法确定的。例如,我读到K-means聚类算法无法找到非凸形状的聚类,它只能成功地找到球形或凸形状的聚类。此外,它还试图找到大小相同的集群。这与它的距离相似性函数有关吗?如果是的话,什么样的相似性函数适合于寻找不同大小的非凸簇形状?如果没有,请告诉我什么因素会影响簇的形状和大小 此外,基于概率的相似函数是否有助于发现不同大小的非凸簇形状 请帮我找出答案,谢谢 在这方面,算法没有“定义”形状或大小 你引用的很多东西(“k-means只能找到球形簇”)只是经验

我想问一个关于簇的形状和大小是如何用数学方法确定的。例如,我读到K-means聚类算法无法找到非凸形状的聚类,它只能成功地找到球形或凸形状的聚类。此外,它还试图找到大小相同的集群。这与它的距离相似性函数有关吗?如果是的话,什么样的相似性函数适合于寻找不同大小的非凸簇形状?如果没有,请告诉我什么因素会影响簇的形状和大小

此外,基于概率的相似函数是否有助于发现不同大小的非凸簇形状

请帮我找出答案,谢谢

在这方面,

算法没有“定义”形状或大小

你引用的很多东西(“k-means只能找到球形簇”)只是经验法则,而不是数学性质

从技术上讲,k-means将把数据划分成Voronoi单元。因此,很容易看出什么样的簇不能通过k-均值找到(例如,voronoi细胞是凸的)。但这几乎就是你所拥有的——如果你基于Voronoi单元生成一个数据集,k-means将无法恢复它。它在细胞的中央需要一个质心。

还有一些变体,比如kernelk-means,它远远不能确定它能发现什么样的集群

k-均值不得用于其他距离。不要将其视为基于距离的,它将方差降至最低。对于其他距离,请使用k-Medoid。核化k-均值应该是安全的,它将最小化投影核空间中的方差,并终止。对于其他距离,k-均值可能无法收敛,因为均值仅最小化平方欧几里德(因此需要替换均值)


如果要查找其他簇形状,请不要从k-means开始。考虑k-均值作为最小二乘量化,而不是试图寻找一个特定形状的簇(它不是为相同大小的球形簇设计的,但它只关心优化平方和公式)。