Math 协方差矩阵的标度

Math 协方差矩阵的标度,math,matlab,ellipse,Math,Matlab,Ellipse,对于这个问题,他在报告中说: “如果您希望椭圆表示 特定水平的标准 偏差,正确的做法是 通过缩放协方差矩阵“ 用于缩放的代码如下所示: STD = 2; %# 2 standard deviations conf = 2*normcdf(STD)-1; %# covers around 95% of population scale = chi2inv(conf,2); %# inverse chi-squared with dof=#di

对于这个问题,他在报告中说:

“如果您希望椭圆表示 特定水平的标准 偏差,正确的做法是 通过缩放协方差矩阵“

用于缩放的代码如下所示:

STD = 2;                     %# 2 standard deviations
conf = 2*normcdf(STD)-1;     %# covers around 95% of population
scale = chi2inv(conf,2);     %# inverse chi-squared with dof=#dimensions

Cov = cov(X0) * scale;
[V D] = eig(Cov);
我不理解上面代码片段的前3行。chi2inv(conf,2)是如何计算标度的?将其与协变量矩阵相乘的原理是什么

附加问题:

我还发现,如果我用1.5标准缩放它,即86%的平铺,椭圆可以覆盖所有的点,我的点集几乎在所有情况下都聚集在一起。另一方面,如果我用3标准,即99%的瓷砖来缩放它,椭圆就太大了。那么我如何选择一个STD来紧紧地覆盖聚集点呢

以下是一个例子:

内椭圆对应于1.5标准,外椭圆对应于2.5标准。为什么1.5标准紧密地覆盖成团的白点?是否有任何方法或理由来定义它


在数据点周围显示椭圆的目的是显示置信区间,或者换句话说,“有多少数据与平均值在一定的标准偏差范围内”

在上面的代码中,他选择显示一个覆盖95%数据点的椭圆。对于正态分布,约67%的数据与平均值相差1s.d.,约95%在2s.d.范围内,约99%在3s.d.范围内(这些数字我不知道,但你可以通过计算曲线下的面积轻松验证这一点)。因此,值
STD=2
您会发现
conf
约为
0.95

数据点到数据质心的距离类似于
(xi^2+yi^2)^0.5
,忽略系数。随机变量的平方和遵循卡方分布,因此为了得到相应的95%值,他使用逆卡方函数,d.o.f.2,因为有两个变量

最后,将缩放常数相乘的基本原理来自这样一个事实,即对于具有特征值
a1,…,an,
,矩阵
kA的特征值,
k
是标量的矩阵
a
的特征值只是
ka1,…,kan
。特征值给出了椭圆长轴/短轴的相应长度,因此将椭圆或特征值缩放到95%平铺相当于将协方差矩阵与缩放因子相乘

编辑

程,虽然你可能已经知道这一点,但我建议你也读一读关于随机性的问题。考虑一个具有零均值、单位方差的高斯随机变量。此类随机变量集合的PDF如下所示

现在,如果我取两个这样的随机变量集合,分别求平方,然后将它们相加,形成一个新的随机变量集合,其分布如下所示

这是具有2个自由度的卡方分布(因为我们添加了两个集合)

上面代码中的椭圆方程可以写成
x^2/a^2+y^2/b^2=k
,其中
x
y
是两个随机变量,
a
b
是长轴/短轴,
k
是我们需要计算的一些比例常数。正如你所看到的,上面可以解释为平方和加上两组高斯随机变量,我们刚才看到了它的分布。所以,我们可以说,
k
是一个随机变量,是2个自由度的卡方分布

现在需要做的就是为
k
找到一个值,使95%的ile数据在其中。就像1s.d,2s.d,3s.d。我们熟悉高斯分布的百分位数,2个自由度的卡方分布的95%分位数约为6.18。这是Amro从
chi2inv
功能中获得的。他本可以写得很好的
scale=chi2inv(0.95,2)
,结果也一样。只是用
n
s.d.的术语来谈论偏离平均值是很直观的

为了举例说明,这里是上面卡方分布的PDF,95%的面积x
用红色阴影表示。该
x
为~6.18


希望这有帮助。

@R.M.你比我领先一秒:)+1,这样你就可以投票选出你喜欢的答案。非常感谢。你帮了我很多。我想投票给你答案,但我是新来的,没有英国的名声。等我有足够的声誉时,我会投票表决。再次感谢。嗨,R.M.,我仍然不明白为什么逆卡方函数的输出可以是比例因子。STD=2时,逆卡方函数的输出为6.1801。我很好奇6.1801背后的含义。我想我们可以打电话。然后,原始特征值乘以sqrt(6.1801)进行缩放。我知道我们必须缩放特征值,但我真的想知道如何确定缩放因子。为什么我们可以这样决定。谢谢,谢谢你,R.M.你一定是一个统计学家和一个好的教育者,我在这方面很弱。你的答案很糟糕。如果你不知道生成这些点的过程的统计数据,你就不能真的假设它们是高斯分布。对我来说,这看起来就像你只是试图在一个物体周围拟合一个椭圆,类似于今天早些时候关于在物体周围拟合矩形的问题。这将属于图像处理和检测的范畴,我相信你使用了错误的方法。我建议从你的具体问题开始一个新问题,并将其标记为图像处理,这样那些在这些领域更有知识的人就会看到你的问题并可能回答它。