Algorithm 如何计算此聚类中总错误的度量_Algorithm_Cluster Analysis_K Means

Algorithm 如何计算此聚类中总错误的度量

algorithm

Algorithm 如何计算此聚类中总错误的度量,algorithm,cluster-analysis,k-means,Algorithm,Cluster Analysis,K Means,这是一个关于k-均值聚类算法的问题。我有以下几点和数据的聚类S1。有人能告诉我如何计算与此群集相关的总错误吗？我知道这不是一个严格的编程问题，但我的算法需要它。我认为答案应该是4/3，但我不知道如何计算。有人能帮我吗 x1= (2.0,1.0) x2= (2.0,2.0) x3= (1.0,2.0) S1={ x1, x2, x3 } 计算误差的方法有很多种。这里有一个首先计算集合的质心，C1=（x1+x2+x3）/3。然后将误差计算为距质心的距离之和：E1=d（C1-x1）+d（C1-x

这是一个关于k-均值聚类算法的问题。我有以下几点和数据的聚类S1。有人能告诉我如何计算与此群集相关的总错误吗？我知道这不是一个严格的编程问题，但我的算法需要它。我认为答案应该是4/3，但我不知道如何计算。有人能帮我吗

x1= (2.0,1.0)
x2= (2.0,2.0)
x3= (1.0,2.0)

S1={ x1, x2, x3 }

计算误差的方法有很多种。这里有一个

首先计算集合的质心，C1=（x1+x2+x3）/3。然后将误差计算为距质心的距离之和：E1=d（C1-x1）+d（C1-x2）+d（C1-x3）

在过去的几周里，我不得不寻找类似的东西。和大多数事情一样，找到正确的名字帮助很大。您正在寻找群集有效性索引。我在甘、马和吴的《数据聚类理论、算法和应用》第17章中找到了一个有用的算法（和相关数学）来源。亚马逊100美元以上的价格并不便宜，但我会发现这本书的其余部分很有用。虽然它涵盖了很多这些指数，但它缺乏对优势和劣势的良好讨论，因此您需要一些在线搜索

最后我尝试了Davies Bouldin指数和Dunn指数。Dunn工作得更好，但计算速度非常慢，我决定使用一个简化版本，使用质心-质心距离（而不是组件点-点距离）和质心的最大半径，而不是真实直径。到目前为止，这对我来说很有效

大多数不同的指标都使用聚类大小和分离度的度量