R PAM算法中初始medoid的选择

R PAM算法中初始medoid的选择,r,cluster-analysis,data-partitioning,R,Cluster Analysis,Data Partitioning,我读过几篇关于PAM如何选择初始medoid的不同文章,但我得到了相互矛盾的观点 一些人建议随机选择k个第一个medoid,而另一些人建议算法首先选择数据集中的k个代表性medoid(但没有说明“代表性”是如何发生的)。下面我列出了这些资源: 1) 我的问题是,如果有人能更详细地解释算法如何选择初始k medoid,因为据我所知,不同的初始选择可能导致不同的结果 2) 这也是使用CLARA的原因之一(除了最小化计算时间和RAM存储问题),也就是通过重采样找到medoid,这是“最佳”选项

我读过几篇关于PAM如何选择初始medoid的不同文章,但我得到了相互矛盾的观点

一些人建议随机选择k个第一个medoid,而另一些人建议算法首先选择数据集中的k个代表性medoid(但没有说明“代表性”是如何发生的)。下面我列出了这些资源:

1) 我的问题是,如果有人能更详细地解释算法如何选择初始k medoid,因为据我所知,不同的初始选择可能导致不同的结果

2) 这也是使用CLARA的原因之一(除了最小化计算时间和RAM存储问题),也就是通过重采样找到medoid,这是“最佳”选项

我使用R作为括号,函数为pam()。如果我不知道还有更好的替代方案,请打开其他库中的其他函数。

阅读原始源代码

不幸的是,后来写了很多废话

PAM由两个算法组成:

  • 构建以选择初始Medoid(非随机)
  • 交换以实现最佳改进(不是k-means风格)
  • k-means风格算法的效果比PAM差得多。对PAM的任何描述,如果没有提到这两个部分,都是不准确的(其中有相当一部分…)

    R包似乎使用了真正的PAM算法:

    默认情况下,当未指定MEDOID时,算法首先查找良好的MEDOID初始集(这称为构建阶段)。然后它为目标函数找到一个局部最小值,也就是说,一个解决方案使得观测值没有一个单一的切换会降低目标(这称为交换阶段)


    CLARA显然会找到比PAM更糟糕的解决方案,因为它在一个样本上运行PAM,我想最好的medoid不在样本中,那么就找不到了。

    谢谢你的快速回答,你能给我一些原始来源的参考资料吗?它们应该在维基百科上链接。你曾经找到过这个问题的答案吗?维基百科的报纸在付费墙后面。