Algorithm 非均匀聚类（k-means）_Algorithm_Machine Learning_Statistics_K Means

Algorithm 非均匀聚类（k-means）

algorithm machine-learning statistics

Algorithm 非均匀聚类（k-means）,algorithm,machine-learning,statistics,k-means,Algorithm,Machine Learning,Statistics,K Means,我有两组观点。在应用任何聚类技术之前，我确切地知道每个聚类应该属于哪些点，但是标记数据的唯一方法是使用聚类技术，例如k-means。如果我所处的情况似乎令人困惑，请不要关注它，我更感兴趣的是k-means的这个潜在的具体问题假设我的数据如下所示（x-y平面上的简单2D点）：我想得到两组点，但是有一个小问题。当我运行k-means算法时，我得到的结果如下：我应该补充一点，这只是一个粗略的例子我所面临的问题是，在算法运行之前，当聚类中的点数量极不均匀时，那么在最后的算法聚类中，它会产生显

我有两组观点。在应用任何聚类技术之前，我确切地知道每个聚类应该属于哪些点，但是标记数据的唯一方法是使用聚类技术，例如k-means。如果我所处的情况似乎令人困惑，请不要关注它，我更感兴趣的是k-means的这个潜在的具体问题

假设我的数据如下所示（x-y平面上的简单2D点）：

我想得到两组点，但是有一个小问题。当我运行k-means算法时，我得到的结果如下：

我应该补充一点，这只是一个粗略的例子

我所面临的问题是，在算法运行之前，当聚类中的点数量极不均匀时，那么在最后的算法聚类中，它会产生显著的结果，从而使数据变得模糊。当然，这只是一个问题，当集群是模糊的紧密联系在一起，但我想知道是否有一个k-means变量或其他聚类算法，可以很好地处理不同规模的集群。我曾试图找到这样一个东西，但我担心我使用了错误的搜索词，如“不均匀的k-均值聚类总体”和类似的措辞，只能让我获得关于更快的k-均值实现和与其他统计分析相结合的论文

只是为了消除一些顾虑。我已经运行了几次k-means，结果总是上面的草图，在两个视觉簇之间有一个簇质心

如果这只是k-means的一个缺点（我可以看到是这样），那么我可以接受。

k-means算法的输出在很大程度上取决于您选择的初始质心。如果选择彼此靠近的质心，则得到的簇将倾斜

此外，如果真实簇的数据点数量不平衡，则通过随机选择初始质心，很可能会从同一簇中选择初始质心

因此，我建议您尝试选择尽可能远的初始质心。这应该是可能的，因为您的点是二维的

您甚至可以探索聚合聚类方法，如单链接或完整链接算法

这就是说，这些算法不能保证最佳结果，因此您必须满足于某些次优

希望这有帮助。

您是如何选择初始质心的。@AbhishekBansal随机。您是否尝试过基于密度或层次聚类（或其他100种聚类算法中的任何一种）？