Algorithm 具有大方差/闭合点的k-均值成本函数问题及其修正

Algorithm 具有大方差/闭合点的k-均值成本函数问题及其修正,algorithm,k-means,Algorithm,K Means,所有的k-means算法都试图以一种或另一种方式找到k个点,这样,如果您将原始数据集中的任何点映射到距这些k个点最近的点,那么您将最小化到这些点的平方距离之和 此成本函数的问题: 想象以下一维情况(即,数字而不是向量),k=2。让我们称为基本真值点A和B,这样A=-1和B=1。让我们调用这些点,一个最优的k-均值算法将返回C和D,使得C和D分别对应于A和B。现在让我们假设我们有一个大的数据集,它是从a和B周围的点创建的,具有某种正态分布。假设方差足够大,我们预计a的点百分比为正,B的点百分比为负

所有的k-means算法都试图以一种或另一种方式找到k个点,这样,如果您将原始数据集中的任何点映射到距这些k个点最近的点,那么您将最小化到这些点的平方距离之和

此成本函数的问题:

想象以下一维情况(即,数字而不是向量),k=2。让我们称为基本真值点A和B,这样A=-1和B=1。让我们调用这些点,一个最优的k-均值算法将返回C和D,使得C和D分别对应于A和B。现在让我们假设我们有一个大的数据集,它是从a和B周围的点创建的,具有某种正态分布。假设方差足够大,我们预计a的点百分比为正,B的点百分比为负,因为这些点将映射到错误的点,这将使C和D比a和B更接近,并且随着方差的增加,C和D都接近0

此问题的解决方案?


这个问题对我来说太基本了,我确信我能找到一些关于它的东西,但是当我搜索时,我找不到关于这个问题的任何东西。所以我的问题是,是否有任何论文/算法可以解决这个问题并试图解决这个问题?即使在假设数据正态分布或对数据分布有任何其他假设的特殊情况下?我觉得奇怪的是,我没有发现任何地方提到这个问题。在大多数情况下,k-means算法是一个优化问题,可以最小化每个簇的簇内方差

在数据方差无穷大的情况下,您遇到的问题是k-means算法解的非唯一性问题。当两个基本分布的真实方差接近无穷大时,k-均值问题公式的最优解集是无穷大的。也就是说,任何一组平均值都会返回完全相同的拟合质量(理论上)。实际上,k-means算法只会过度拟合数据中的(有限)噪声,并选择任意一对平均值

简单地说,k-均值问题的定义不适用于您描述的无限方差情况。请注意,在无穷方差的情况下,您会遇到比k-means更大的问题,无法得到有用的解决方案。其他基本性质(如中心极限定理)不再得到保证

在有限但大方差的情况下,我们期望k-均值问题是病态的。为了理解为什么,在k-均值的上下文中考虑中心极限定理(CLT)。 CLT声明,在k均值过程中计算的均值收敛于正态分布,均值等于(数据的)真实均值,方差等于
sigma^2/sqrt(n)
,其中
sigma^2
是数据的方差,
n
是样本数。当
sigma^2
接近无穷大时,
n
必须接近无穷大(二次),以便有合理的机会准确估计真实平均值


简单地说,问题的解决方案是对数据进行适当的探索性分析,以确定方差有多高,以及样本数量是否足以满足预期方差。如果没有,请返回并收集更多数据,或者应用不同的技术。

在大多数情况下,k-means算法是一个优化问题,可以最小化每个簇的簇内方差

在数据方差无穷大的情况下,您遇到的问题是k-means算法解的非唯一性问题。当两个基本分布的真实方差接近无穷大时,k-均值问题公式的最优解集是无穷大的。也就是说,任何一组平均值都会返回完全相同的拟合质量(理论上)。实际上,k-means算法只会过度拟合数据中的(有限)噪声,并选择任意一对平均值

简单地说,k-均值问题的定义不适用于您描述的无限方差情况。请注意,在无穷方差的情况下,您会遇到比k-means更大的问题,无法得到有用的解决方案。其他基本性质(如中心极限定理)不再得到保证

在有限但大方差的情况下,我们期望k-均值问题是病态的。为了理解为什么,在k-均值的上下文中考虑中心极限定理(CLT)。 CLT声明,在k均值过程中计算的均值收敛于正态分布,均值等于(数据的)真实均值,方差等于
sigma^2/sqrt(n)
,其中
sigma^2
是数据的方差,
n
是样本数。当
sigma^2
接近无穷大时,
n
必须接近无穷大(二次),以便有合理的机会准确估计真实平均值


简单地说,问题的解决方案是对数据进行适当的探索性分析,以确定方差有多高,以及样本数量是否足以满足预期方差。如果没有,请返回并收集更多数据,或者应用不同的技术。

此问题是与所谓的Bayes分类错误相关的普遍现象,这是当类的分布重叠时可以实现的最低错误。(在实践中,量词的效果比理论界差。)

这显然意味着,在重叠的情况下,无论采用何种方法,都无法避免一定百分比的误分类。那里