Machine learning 是什么使k-medoid中的距离度量“更精确？”；“更好”；比k-means好？_Machine Learning_Cluster Analysis_Data Mining_K Means

Machine learning 是什么使k-medoid中的距离度量“更精确？”；“更好”；比k-means好？

machine-learning

Machine learning 是什么使k-medoid中的距离度量“更精确？”；“更好”；比k-means好？,machine-learning,cluster-analysis,data-mining,k-means,Machine Learning,Cluster Analysis,Data Mining,K Means,我正在阅读关于k-means聚类和k-medoid聚类之间的区别的文章假设在k-medoid算法中使用成对距离度量，而不是更熟悉的平方欧几里德距离类型度量之和来评估我们用k-means发现的方差，有一个优势。显然，这种不同的距离度量某种程度上减少了噪音和异常值我见过这种说法，但对于这种说法背后的数学原理，我还没有看到任何好的理由是什么使k-medoid中常用的成对距离度量更好？更确切地说，缺少平方项如何使k-中值具有与取中值概念相关的理想性质？我认为这与簇中心的选择有关。k-means将选

我正在阅读关于k-means聚类和k-medoid聚类之间的区别的文章

假设在k-medoid算法中使用成对距离度量，而不是更熟悉的平方欧几里德距离类型度量之和来评估我们用k-means发现的方差，有一个优势。显然，这种不同的距离度量某种程度上减少了噪音和异常值

我见过这种说法，但对于这种说法背后的数学原理，我还没有看到任何好的理由

是什么使k-medoid中常用的成对距离度量更好？更确切地说，缺少平方项如何使k-中值具有与取中值概念相关的理想性质？

我认为这与簇中心的选择有关。k-means将选择集群的“中心”，而k-medoid将选择集群的“最中心”成员。在有离群点的集群中（即远离集群其他成员的点），k-means会将集群的中心朝向离群点，而k-medoid会选择一个更聚集的成员（medoid）作为中心

它现在取决于您使用集群的目的。如果你只是想对一堆物体进行分类，那么你并不真正关心中心在哪里；但是如果聚类被用来训练一个决策者，该决策者现在将根据这些中心点对新对象进行分类，那么k-medoid将为您提供一个更靠近人类放置中心的中心

用维基百科的话说：

“与k-均值相比，它[k-medoid]对噪声和异常值的鲁棒性更强，因为它最小化了成对差异之和，而不是平方欧氏距离之和。”

下面是一个例子：

假设您希望在一个维度上使用k=2进行聚类。一个集群的大多数成员约为1000人，另一个集群的成员约为-1000人；但有一个异常值（或噪声）为100000。它显然属于1000左右的集群，但k-means会将中心点从1000移到100000。这甚至可能会将1000集群的一些成员（例如值为500的成员）分配给-1000集群。

k-medoid将选择1000个左右的成员中的一个作为medoid，它可能会选择一个大于1000的成员，但它不会选择一个异常值。

只需在@Eli的答案中添加一个小注释，k-medoid比k-means对噪声和异常值更具鲁棒性，因为后者选择的是聚类中心，而这主要只是一个“美德点”，另一方面，前者从集群中选择“实际对象”

假设在一个簇中有五个二维点，坐标为（1,1）、（1,2）、（2,1）、（2,2）和（100100）。如果我们不考虑集群之间的对象交换，那么k-均值将得到集群的中心（21.2，21.2），这被点（100100）分心。但是，使用k-medoid时，将根据其算法在（1,1）、（1,2）、（2,1）和（2,2）中选择中心

这是一个有趣的小程序（），您可以在2D平面上随机生成数据集，并比较k-medoid和k-means学习过程。

1。K-medoid更灵活首先，可以将k-medoid与任何相似性度量一起使用。然而，K-均值可能无法收敛-它实际上只能用于与均值一致的距离。因此，例如绝对皮尔逊相关性不能与k-均值一起使用，但它与k-均值很好地配合使用

2.medoid的鲁棒性其次，k-medoid使用的medoid与中值大致相当（事实上，也有k-medians，与k-means类似，但用于曼哈顿距离）。如果你查阅有关中位数的文献，你会看到很多解释和例子，说明为什么中位数比算术平均值对异常值更稳健。基本上，这些解释和例子也适用于medoid。与k-均值中使用的平均值相比，它是对代表点更稳健的估计

考虑以下一维示例：

[1, 2, 3, 4, 100000]

此集合的中间值和中间值均为3。平均值为20002

你认为哪个数据集更具代表性？平均值具有较低的平方误差，但假设此数据集中可能存在测量误差

从技术上讲，统计中使用了分解点的概念。中位数的分解点为50%（即，一半的数据点可能不正确，结果仍然不受影响），而平均值的分解点为0（即，单个大型观测可能产生错误的估计）

我没有证据，但我假设medoid将有一个与中值相似的分解点

3.k-medoids要贵得多

这是主要的缺点。通常，PAM的运行时间比k-means长得多。因为它涉及到计算所有成对距离，所以它是

O（n^2*k*i）

；而k-means在

O（n*k*i）

中运行，其中通常k次迭代次数是

k*i，谢谢您的评论。但我仍然没有看到相似性度量中缺少平方项与中值概念之间的关联，这不是平方项本身。这是一个总和，对异常值不可靠。在数据中输入一个真正的极值。比如说，您的数据是0,1,2,3100000000
。比较均值和中位数，哪一个更稳健？关于k-中值和中位数之间的类比，有点手工操作？很明显，它们不一样。但是如果你通过

delta使离群值变得更极端，这不会对中间值产生太大影响，就像中间值一样；因为所有其他候选人都受到同样的影响。可以更好地获得更深入和理论性的答案。请参阅我更新的答案，了解稳健统计中的细分点概念。地中海象