Apache spark K-均值火花方差

Apache spark K-均值火花方差,apache-spark,k-means,standard-deviation,Apache Spark,K Means,Standard Deviation,我使用k-means算法和Spark,我不理解平方和误差和方差之间的关系 这些值之间有关系吗 我与k=1一起工作。这些值是 平方和误差为10.5679450644 标准偏差为: 科技开发署:[2.05035446 2.52269532] 我可以从标准偏差计算平方误差吗?方差定义为 1/(n-1) * sum of squares 通常情况下,人们使用1/n而不是1/(n-1),但对于大数据来说,这并没有多大变化 标准偏差当然是sqrt(方差) 是的,这三者之间有一个非常简单的关系: stdde

我使用k-means算法和Spark,我不理解平方和误差和方差之间的关系

这些值之间有关系吗

我与k=1一起工作。这些值是

平方和误差为10.5679450644

标准偏差为:

科技开发署:[2.05035446 2.52269532]

我可以从标准偏差计算平方误差吗?

方差定义为

1/(n-1) * sum of squares
通常情况下,人们使用1/n而不是1/(n-1),但对于大数据来说,这并没有多大变化

标准偏差当然是
sqrt(方差)

是的,这三者之间有一个非常简单的关系:

stddev = sqrt(variance) = sqrt(SSQ / (n-1))

除了在您的示例中,stddev是在每个轴上独立计算的;也许你的SSQ实际上是一个平均SSQ(很可能是SSQ/n,很不幸)。或者您的数据集只有2个点?

似乎
2.05*2.05+2.52*2.52
接近10.56