R PAM算法中初始medoid的选择_R_Cluster Analysis_Data Partitioning

R PAM算法中初始medoid的选择

R PAM算法中初始medoid的选择,r,cluster-analysis,data-partitioning,R,Cluster Analysis,Data Partitioning,我读过几篇关于PAM如何选择初始medoid的不同文章，但我得到了相互矛盾的观点一些人建议随机选择k个第一个medoid，而另一些人建议算法首先选择数据集中的k个代表性medoid（但没有说明“代表性”是如何发生的）。下面我列出了这些资源： 1）我的问题是，如果有人能更详细地解释算法如何选择初始k medoid，因为据我所知，不同的初始选择可能导致不同的结果 2）这也是使用CLARA的原因之一（除了最小化计算时间和RAM存储问题），也就是通过重采样找到medoid，这是“最佳”选项

我读过几篇关于PAM如何选择初始medoid的不同文章，但我得到了相互矛盾的观点

一些人建议随机选择k个第一个medoid，而另一些人建议算法首先选择数据集中的k个代表性medoid（但没有说明“代表性”是如何发生的）。下面我列出了这些资源：

1）我的问题是，如果有人能更详细地解释算法如何选择初始k medoid，因为据我所知，不同的初始选择可能导致不同的结果

2）这也是使用CLARA的原因之一（除了最小化计算时间和RAM存储问题），也就是通过重采样找到medoid，这是“最佳”选项

我使用R作为括号，函数为pam（）。如果我不知道还有更好的替代方案，请打开其他库中的其他函数。

阅读原始源代码

不幸的是，后来写了很多废话

PAM由两个算法组成：

构建以选择初始Medoid（非随机）

交换以实现最佳改进（不是k-means风格）

k-means风格算法的效果比PAM差得多。对PAM的任何描述，如果没有提到这两个部分，都是不准确的（其中有相当一部分…）

R包似乎使用了真正的PAM算法：

默认情况下，当未指定MEDOID时，算法首先查找良好的MEDOID初始集（这称为构建阶段）。然后它为目标函数找到一个局部最小值，也就是说，一个解决方案使得观测值没有一个单一的切换会降低目标（这称为交换阶段）

CLARA显然会找到比PAM更糟糕的解决方案，因为它在一个样本上运行PAM，我想最好的medoid不在样本中，那么就找不到了。
谢谢你的快速回答，你能给我一些原始来源的参考资料吗？它们应该在维基百科上链接。你曾经找到过这个问题的答案吗？维基百科的报纸在付费墙后面。