Algorithm k-均值聚类算法中的代价函数值_Algorithm_Mahout_K Means

Algorithm k-均值聚类算法中的代价函数值

algorithm

Algorithm k-均值聚类算法中的代价函数值,algorithm,mahout,k-means,Algorithm,Mahout,K Means,如何使用mahout计算k-means聚类中的代价函数值我正在上Coursera的机器学习课程。有人建议，如果我们在k-means聚类过程中随机初始化聚类，为了计算聚类，我们应该使用不同的初始聚类质心值进行多次初始化。然后，我们应该检查成本函数的值，看看哪一个迭代成本最小您能建议如何在ApacheMahout的k-means集群实现中计算成本值吗？它是独立于实现的。只需计算点到各自质心的距离平方和。这是您的成本函数。好的，所以我们必须保持集群数量不变。当质心移动小于或等于收敛阈值时，K-均值

如何使用mahout计算k-means聚类中的代价函数值

我正在上Coursera的机器学习课程。有人建议，如果我们在k-means聚类过程中随机初始化聚类，为了计算聚类，我们应该使用不同的初始聚类质心值进行多次初始化。然后，我们应该检查成本函数的值，看看哪一个迭代成本最小

您能建议如何在ApacheMahout的k-means集群实现中计算成本值吗？

它是独立于实现的。只需计算点到各自质心的距离平方和。这是您的成本函数。

好的，所以我们必须保持集群数量不变。当质心移动小于或等于收敛阈值时，K-均值将停止。因此，对于每次执行初始化的K-均值，我们应该计算每个训练示例的平方距离之和或标准偏差，从它们各自的质心开始。并对整个训练集进行总结。无论什么时候，只要它是最小值，我们就会达到最佳值。这是正确的理解吗？没有固定的K，K-均值的定义是错误的，所以是的，它必须是固定的。看看维基百科中的等式：，这正是你的成本函数。如果你能找到真正的最小值，它将是k-均值意义上的“最优”（这只是上面的函数，所以它是一个重言式），尽管这在一般情况下是不可能的（这个问题即使对于k=2和R^2也是NP难的）。非常感谢！！因为它是NP难的，所以很难或不可能说我们是真正的最小值。无论我们得到什么，都是基于成本的最优结果。对吗？不是不可能，只是“潜在的昂贵”。您总是可以在2^N时间内给出答案。