Algorithm 非均匀聚类(k-means)

Algorithm 非均匀聚类(k-means),algorithm,machine-learning,statistics,k-means,Algorithm,Machine Learning,Statistics,K Means,我有两组观点。在应用任何聚类技术之前,我确切地知道每个聚类应该属于哪些点,但是标记数据的唯一方法是使用聚类技术,例如k-means。如果我所处的情况似乎令人困惑,请不要关注它,我更感兴趣的是k-means的这个潜在的具体问题 假设我的数据如下所示(x-y平面上的简单2D点): 我想得到两组点,但是有一个小问题。当我运行k-means算法时,我得到的结果如下: 我应该补充一点,这只是一个粗略的例子 我所面临的问题是,在算法运行之前,当聚类中的点数量极不均匀时,那么在最后的算法聚类中,它会产生显

我有两组观点。在应用任何聚类技术之前,我确切地知道每个聚类应该属于哪些点,但是标记数据的唯一方法是使用聚类技术,例如k-means。如果我所处的情况似乎令人困惑,请不要关注它,我更感兴趣的是k-means的这个潜在的具体问题

假设我的数据如下所示(x-y平面上的简单2D点):

我想得到两组点,但是有一个小问题。当我运行k-means算法时,我得到的结果如下:

我应该补充一点,这只是一个粗略的例子

我所面临的问题是,在算法运行之前,当聚类中的点数量极不均匀时,那么在最后的算法聚类中,它会产生显著的结果,从而使数据变得模糊。当然,这只是一个问题,当集群是模糊的紧密联系在一起,但我想知道是否有一个k-means变量或其他聚类算法,可以很好地处理不同规模的集群。我曾试图找到这样一个东西,但我担心我使用了错误的搜索词,如“不均匀的k-均值聚类总体”和类似的措辞,只能让我获得关于更快的k-均值实现和与其他统计分析相结合的论文

只是为了消除一些顾虑。我已经运行了几次k-means,结果总是上面的草图,在两个视觉簇之间有一个簇质心


如果这只是k-means的一个缺点(我可以看到是这样),那么我可以接受。

k-means算法的输出在很大程度上取决于您选择的初始质心。如果选择彼此靠近的质心,则得到的簇将倾斜

此外,如果真实簇的数据点数量不平衡,则通过随机选择初始质心,很可能会从同一簇中选择初始质心

因此,我建议您尝试选择尽可能远的初始质心。这应该是可能的,因为您的点是二维的

您甚至可以探索聚合聚类方法,如单链接或完整链接算法

这就是说,这些算法不能保证最佳结果,因此您必须满足于某些次优


希望这有帮助。

您是如何选择初始质心的。@AbhishekBansal随机。您是否尝试过基于密度或层次聚类(或其他100种聚类算法中的任何一种)?