Database 簇的形状和大小_Database_Cluster Analysis_Data Mining

Database 簇的形状和大小

database

Database 簇的形状和大小,database,cluster-analysis,data-mining,Database,Cluster Analysis,Data Mining,我想问一个关于簇的形状和大小是如何用数学方法确定的。例如，我读到K-means聚类算法无法找到非凸形状的聚类，它只能成功地找到球形或凸形状的聚类。此外，它还试图找到大小相同的集群。这与它的距离相似性函数有关吗？如果是的话，什么样的相似性函数适合于寻找不同大小的非凸簇形状？如果没有，请告诉我什么因素会影响簇的形状和大小此外，基于概率的相似函数是否有助于发现不同大小的非凸簇形状请帮我找出答案，谢谢在这方面，算法没有“定义”形状或大小你引用的很多东西（“k-means只能找到球形簇”）只是经验

我想问一个关于簇的形状和大小是如何用数学方法确定的。例如，我读到K-means聚类算法无法找到非凸形状的聚类，它只能成功地找到球形或凸形状的聚类。此外，它还试图找到大小相同的集群。这与它的距离相似性函数有关吗？如果是的话，什么样的相似性函数适合于寻找不同大小的非凸簇形状？如果没有，请告诉我什么因素会影响簇的形状和大小

此外，基于概率的相似函数是否有助于发现不同大小的非凸簇形状

请帮我找出答案，谢谢

在这方面，

算法没有“定义”形状或大小

你引用的很多东西（“k-means只能找到球形簇”）只是经验法则，而不是数学性质

从技术上讲，k-means将把数据划分成Voronoi单元。因此，很容易看出什么样的簇不能通过k-均值找到（例如，voronoi细胞是凸的）。但这几乎就是你所拥有的——如果你基于Voronoi单元生成一个数据集，k-means将无法恢复它。它在细胞的中央需要一个质心。

还有一些变体，比如kernelk-means，它远远不能确定它能发现什么样的集群

k-均值不得用于其他距离。不要将其视为基于距离的，它将方差降至最低。对于其他距离，请使用k-Medoid。核化k-均值应该是安全的，它将最小化投影核空间中的方差，并终止。对于其他距离，k-均值可能无法收敛，因为均值仅最小化平方欧几里德（因此需要替换均值）

如果要查找其他簇形状，请不要从k-means开始。考虑k-均值作为最小二乘量化，而不是试图寻找一个特定形状的簇（它不是为相同大小的球形簇设计的，但它只关心优化平方和公式）。