Machine learning K-表示进一步第一次遍历的初始化和K-均值++；_Machine Learning_Cluster Analysis_K Means

Machine learning K-表示进一步第一次遍历的初始化和K-均值++；

machine-learning

Machine learning K-表示进一步第一次遍历的初始化和K-均值++；,machine-learning,cluster-analysis,k-means,Machine Learning,Cluster Analysis,K Means,我对k-mean++初始化感到困惑。我了解k-mean++选择最远的数据点作为下一个数据中心。但离群值呢？进一步第一次遍历的初始化与k-mean++之间有什么不同我看到有人这样解释：这是一个一维的例子。我们的观察结果是[0,1,2,3,4]。设第一个中心c1为0。下一个簇中心c2是x与| | c1-x | | ^2成比例。所以，P（c2=1） =1a，P（c2=2）=4a，P（c2=3）=9a，P（c2=4）=16a，其中a=1/（1+4+9+16）假设c2=4。那么，P（c3=1）=

我对k-mean++初始化感到困惑。我了解k-mean++选择最远的数据点作为下一个数据中心。但离群值呢？进一步第一次遍历的初始化与k-mean++之间有什么不同

我看到有人这样解释：

这是一个一维的例子。我们的观察结果是[0,1,2,3,4]。设第一个中心c1为0。下一个簇中心c2是x与| | c1-x | | ^2成比例。所以，P（c2=1） =1a，P（c2=2）=4a，P（c2=3）=9a，P（c2=4）=16a，其中a=1/（1+4+9+16）

假设c2=4。那么，P（c3=1）=1a，P（c3=2）=4a，P（c3=3）=1a，其中a=1/（1+4+1）

这个数组或列表是[0,1,2,4,5,6100]。显然，在这种情况下，100是异常值，它将在某个时候被选为数据中心。有人能给出更好的解释吗？

K-means以概率选择点

但是，是的，对于极端的异常值，它可能会选择异常值

这很好，因为k-means也一样。最有可能的是，最好的SSQ解决方案有一个只包含该点的单元素集群

如果您有这样的数据，k-means解决方案往往是毫无用处的，您可能应该选择另一种算法，例如DBSCAN。

我投票结束这个问题，因为它与编程无关。