Optimization 哪一个目标是优化簇内距离和或MSE?

Optimization 哪一个目标是优化簇内距离和或MSE?,optimization,cluster-analysis,Optimization,Cluster Analysis,在使用元启发式算法的聚类分析论文中,许多人优化了均方量化误差(MSE)。例如在 和 我对结果感到困惑。他们已告知,他们已使用MSE作为目标函数。但他们报告了欧氏距离的簇内和的结果值 K-均值最小化簇内平方和(WCS)(来自wiki)。当计算MSE时,在差异度量的情况下使用欧几里德距离时,我无法找到WCS和MSE之间的差异 在K-均值的情况下,WCS是最小化的,如果我们使用与元启发式算法相同的MSE函数,他们也会最小化它。在这种情况下,K-均值和其他均值的欧氏距离之和如何变化 如果我优化欧几里德距

在使用元启发式算法的聚类分析论文中,许多人优化了均方量化误差(MSE)。例如在 和

我对结果感到困惑。他们已告知,他们已使用MSE作为目标函数。但他们报告了欧氏距离的簇内和的结果值

K-均值最小化簇内平方和(WCS)(来自wiki)。当计算MSE时,在差异度量的情况下使用欧几里德距离时,我无法找到WCS和MSE之间的差异

在K-均值的情况下,WCS是最小化的,如果我们使用与元启发式算法相同的MSE函数,他们也会最小化它。在这种情况下,K-均值和其他均值的欧氏距离之和如何变化

如果我优化欧几里德距离的簇内和,我可以重现论文中显示的结果

sum_x sum_y sum_i (x_i-y_i)^2
= sum_x sum_y [ sum_i (x_i)^2 + sum_i (y_i)^2 - 2 sum_i (x_i*y_i) ]
= n * sum_x sum_i (x_i)^2 + n * sum_y sum_i (y_i)
  - 2 * sum_i [sum_x x_i * sum_y y_i]
我想我在这里做错了什么。有人能帮我吗

主要问题:参考文献和优化的目标是什么,表中显示了哪些函数的值?

K-means优化了(簇内之和-平方和又名方差,又名平方欧氏距离之和

sum_x sum_y sum_i (x_i-y_i)^2
= sum_x sum_y [ sum_i (x_i)^2 + sum_i (y_i)^2 - 2 sum_i (x_i*y_i) ]
= n * sum_x sum_i (x_i)^2 + n * sum_y sum_i (y_i)
  - 2 * sum_i [sum_x x_i * sum_y y_i]
如果研究收敛性证明,这很容易看出

我不能研究你提到的两篇论文。他们是用蹩脚的Elsevier和paywalled,我不会花36美元加32美元来回答你的问题

更新:我设法得到了其中一本的免费副本。他们称之为“MSE,均方量化误差”,但他们的方程通常是簇内平方和,不涉及均值;在这篇声明中附上了一个模糊的自我引用,其中一半的引用是自我引用。。。似乎这位作者更喜欢称之为不同于其他人。在我看来,这有点像“用不同的名字重新发明轮子”。我会仔细检查他们的结果。我不是说它们是假的,我还没有详细检查。但“均方误差”并不一定包含平均值;它是误差的平方和

更新:如果“簇内和”表示任意两个对象的成对距离的总和,考虑以下内容:

在不丧失一般性的情况下,移动数据,使平均值为0。(平移不会改变欧几里得距离或平方欧几里得距离)

前两个总和是相同的。所以我们有
2n
乘以WCS。 但由于
mu_i=0
sum_x x_i=sum_y y_i=0
,第三项消失


如果我没有搞砸这个计算,那么一个簇内的平均不对称成对平方欧几里德距离与WCS相同。

这只是更多使用簇内平方距离之和的论文的两个例子。这些引证对我来说似乎也有问题。优化欧氏距离的簇内和有什么问题吗?我的研究表明,如果我没有犯错误,尽管他们告诉我优化MSE,但他们优化了欧氏距离的簇内和。最小距离最近的簇始终也是最小平方距离最近的簇。所以求平方根通常没有多大害处。假设你的“簇内”是物体到中心的距离,而不是成对的距离。我也相信这与后一种情况有一个微妙的相等。对于我来说,簇内是每个点到最近质心的距离之和。但这些论文和其他人在什么是真正优化的问题上把我弄糊涂了。我认为在优化欧几里德距离的簇内和之后,最好使用其他度量来显示簇的有效性;关于两两平方欧氏距离的相等性,以及与平均值的平方偏差之和。