Machine learning K-表示进一步第一次遍历的初始化和K-均值++;

Machine learning K-表示进一步第一次遍历的初始化和K-均值++;,machine-learning,cluster-analysis,k-means,Machine Learning,Cluster Analysis,K Means,我对k-mean++初始化感到困惑。我了解k-mean++选择最远的数据点作为下一个数据中心。但离群值呢?进一步第一次遍历的初始化与k-mean++之间有什么不同 我看到有人这样解释: 这是一个一维的例子。我们的观察结果是[0,1,2,3,4]。设第一个中心c1为0。下一个 簇中心c2是x与| | c1-x | | ^2成比例。所以,P(c2=1) =1a,P(c2=2)=4a,P(c2=3)=9a,P(c2=4)=16a,其中a=1/(1+4+9+16) 假设c2=4。那么,P(c3=1)=

我对k-mean++初始化感到困惑。我了解k-mean++选择最远的数据点作为下一个数据中心。但离群值呢?进一步第一次遍历的初始化与k-mean++之间有什么不同

我看到有人这样解释:


这是一个一维的例子。我们的观察结果是[0,1,2,3,4]。设第一个中心c1为0。下一个 簇中心c2是x与| | c1-x | | ^2成比例。所以,P(c2=1) =1a,P(c2=2)=4a,P(c2=3)=9a,P(c2=4)=16a,其中a=1/(1+4+9+16)

假设c2=4。那么,P(c3=1)=1a,P(c3=2)=4a,P(c3=3)=1a, 其中a=1/(1+4+1)



这个数组或列表是[0,1,2,4,5,6100]。显然,在这种情况下,100是异常值,它将在某个时候被选为数据中心。有人能给出更好的解释吗?

K-means以概率选择点

但是,是的,对于极端的异常值,它可能会选择异常值

这很好,因为k-means也一样。最有可能的是,最好的SSQ解决方案有一个只包含该点的单元素集群


如果您有这样的数据,k-means解决方案往往是毫无用处的,您可能应该选择另一种算法,例如DBSCAN。

我投票结束这个问题,因为它与编程无关。