Machine learning 是什么使k-medoid中的距离度量“更精确?”;“更好”;比k-means好?

Machine learning 是什么使k-medoid中的距离度量“更精确?”;“更好”;比k-means好?,machine-learning,cluster-analysis,data-mining,k-means,Machine Learning,Cluster Analysis,Data Mining,K Means,我正在阅读关于k-means聚类和k-medoid聚类之间的区别的文章 假设在k-medoid算法中使用成对距离度量,而不是更熟悉的平方欧几里德距离类型度量之和来评估我们用k-means发现的方差,有一个优势。显然,这种不同的距离度量某种程度上减少了噪音和异常值 我见过这种说法,但对于这种说法背后的数学原理,我还没有看到任何好的理由 是什么使k-medoid中常用的成对距离度量更好?更确切地说,缺少平方项如何使k-中值具有与取中值概念相关的理想性质?我认为这与簇中心的选择有关。k-means将选

我正在阅读关于k-means聚类和k-medoid聚类之间的区别的文章

假设在k-medoid算法中使用成对距离度量,而不是更熟悉的平方欧几里德距离类型度量之和来评估我们用k-means发现的方差,有一个优势。显然,这种不同的距离度量某种程度上减少了噪音和异常值

我见过这种说法,但对于这种说法背后的数学原理,我还没有看到任何好的理由


是什么使k-medoid中常用的成对距离度量更好?更确切地说,缺少平方项如何使k-中值具有与取中值概念相关的理想性质?

我认为这与簇中心的选择有关。k-means将选择集群的“中心”,而k-medoid将选择集群的“最中心”成员。 在有离群点的集群中(即远离集群其他成员的点),k-means会将集群的中心朝向离群点,而k-medoid会选择一个更聚集的成员(medoid)作为中心

它现在取决于您使用集群的目的。如果你只是想对一堆物体进行分类,那么你并不真正关心中心在哪里;但是如果聚类被用来训练一个决策者,该决策者现在将根据这些中心点对新对象进行分类,那么k-medoid将为您提供一个更靠近人类放置中心的中心

用维基百科的话说:

“与k-均值相比,它[k-medoid]对噪声和异常值的鲁棒性更强,因为它最小化了成对差异之和,而不是平方欧氏距离之和。”

下面是一个例子:

假设您希望在一个维度上使用k=2进行聚类。一个集群的大多数成员约为1000人,另一个集群的成员约为-1000人;但有一个异常值(或噪声)为100000。 它显然属于1000左右的集群,但k-means会将中心点从1000移到100000。这甚至可能会将1000集群的一些成员(例如值为500的成员)分配给-1000集群。
k-medoid将选择1000个左右的成员中的一个作为medoid,它可能会选择一个大于1000的成员,但它不会选择一个异常值。

只需在@Eli的答案中添加一个小注释,k-medoid比k-means对噪声和异常值更具鲁棒性,因为后者选择的是聚类中心,而这主要只是一个“美德点”,另一方面,前者从集群中选择“实际对象”

假设在一个簇中有五个二维点,坐标为(1,1)、(1,2)、(2,1)、(2,2)和(100100)。如果我们不考虑集群之间的对象交换,那么k-均值将得到集群的中心(21.2,21.2),这被点(100100)分心。但是,使用k-medoid时,将根据其算法在(1,1)、(1,2)、(2,1)和(2,2)中选择中心

这是一个有趣的小程序(),您可以在2D平面上随机生成数据集,并比较k-medoid和k-means学习过程。

1。K-medoid更灵活 首先,可以将k-medoid与任何相似性度量一起使用。然而,K-均值可能无法收敛-它实际上只能用于与均值一致的距离。因此,例如绝对皮尔逊相关性不能与k-均值一起使用,但它与k-均值很好地配合使用

2.medoid的鲁棒性 其次,k-medoid使用的medoid与中值大致相当(事实上,也有k-medians,与k-means类似,但用于曼哈顿距离)。如果你查阅有关中位数的文献,你会看到很多解释和例子,说明为什么中位数比算术平均值对异常值更稳健。基本上,这些解释和例子也适用于medoid。与k-均值中使用的平均值相比,它是对代表点更稳健的估计

考虑以下一维示例:

[1, 2, 3, 4, 100000]
此集合的中间值和中间值均为3。平均值为20002

你认为哪个数据集更具代表性?平均值具有较低的平方误差,但假设此数据集中可能存在测量误差

从技术上讲,统计中使用了分解点的概念。中位数的分解点为50%(即,一半的数据点可能不正确,结果仍然不受影响),而平均值的分解点为0(即,单个大型观测可能产生错误的估计)

我没有证据,但我假设medoid将有一个与中值相似的分解点

3.k-medoids要贵得多
这是主要的缺点。通常,PAM的运行时间比k-means长得多。因为它涉及到计算所有成对距离,所以它是
O(n^2*k*i)
;而k-means在
O(n*k*i)
中运行,其中通常k次迭代次数是
k*i,谢谢您的评论。但我仍然没有看到相似性度量中缺少平方项与中值概念之间的关联,这不是平方项本身。这是一个总和,对异常值不可靠。在数据中输入一个真正的极值。比如说,您的数据是
0,1,2,3100000000
。比较均值和中位数,哪一个更稳健?关于k-中值和中位数之间的类比,有点手工操作?很明显,它们不一样。但是如果你通过
delta使离群值变得更极端,这不会对中间值产生太大影响,就像中间值一样;因为所有其他候选人都受到同样的影响。可以更好地获得更深入和理论性的答案。请参阅我更新的答案,了解稳健统计中的细分点概念。地中海象