Algorithm k-均值聚类算法中的代价函数值

Algorithm k-均值聚类算法中的代价函数值,algorithm,mahout,k-means,Algorithm,Mahout,K Means,如何使用mahout计算k-means聚类中的代价函数值 我正在上Coursera的机器学习课程。有人建议,如果我们在k-means聚类过程中随机初始化聚类,为了计算聚类,我们应该使用不同的初始聚类质心值进行多次初始化。然后,我们应该检查成本函数的值,看看哪一个迭代成本最小 您能建议如何在ApacheMahout的k-means集群实现中计算成本值吗?它是独立于实现的。只需计算点到各自质心的距离平方和。这是您的成本函数。好的,所以我们必须保持集群数量不变。当质心移动小于或等于收敛阈值时,K-均值

如何使用mahout计算k-means聚类中的代价函数值

我正在上Coursera的机器学习课程。有人建议,如果我们在k-means聚类过程中随机初始化聚类,为了计算聚类,我们应该使用不同的初始聚类质心值进行多次初始化。然后,我们应该检查成本函数的值,看看哪一个迭代成本最小


您能建议如何在ApacheMahout的k-means集群实现中计算成本值吗?

它是独立于实现的。只需计算点到各自质心的距离平方和。这是您的成本函数。

好的,所以我们必须保持集群数量不变。当质心移动小于或等于收敛阈值时,K-均值将停止。因此,对于每次执行初始化的K-均值,我们应该计算每个训练示例的平方距离之和或标准偏差,从它们各自的质心开始。并对整个训练集进行总结。无论什么时候,只要它是最小值,我们就会达到最佳值。这是正确的理解吗?没有固定的K,K-均值的定义是错误的,所以是的,它必须是固定的。看看维基百科中的等式:,这正是你的成本函数。如果你能找到真正的最小值,它将是k-均值意义上的“最优”(这只是上面的函数,所以它是一个重言式),尽管这在一般情况下是不可能的(这个问题即使对于k=2和R^2也是NP难的)。非常感谢!!因为它是NP难的,所以很难或不可能说我们是真正的最小值。无论我们得到什么,都是基于成本的最优结果。对吗?不是不可能,只是“潜在的昂贵”。您总是可以在2^N时间内给出答案。