Statistics 考虑偏度和峰度的标准归一化

Statistics 考虑偏度和峰度的标准归一化,statistics,normalization,distribution,Statistics,Normalization,Distribution,我有一个相当基本的统计问题。我知道stack overflow可能不是一个完美的地方,但作为一名软件开发人员,我不知道有什么好的统计论坛,stack overflow在过去对我很有帮助 我的问题如下。我需要标准化一些数据。我有两个不同的集合,在标准化之后,它们应该共享大致相同的分布。到目前为止,我一直使用标准标准化(标准分数:(x-mu)/sigma)。在像这样转换我的两个分布的所有值之后,我希望所有转换值的结果分布几乎相同 到目前为止,这很有效,但现在我遇到了一个问题,我的两个分布之一是倾斜的

我有一个相当基本的统计问题。我知道stack overflow可能不是一个完美的地方,但作为一名软件开发人员,我不知道有什么好的统计论坛,stack overflow在过去对我很有帮助

我的问题如下。我需要标准化一些数据。我有两个不同的集合,在标准化之后,它们应该共享大致相同的分布。到目前为止,我一直使用标准标准化(标准分数:(x-mu)/sigma)。在像这样转换我的两个分布的所有值之后,我希望所有转换值的结果分布几乎相同

到目前为止,这很有效,但现在我遇到了一个问题,我的两个分布之一是倾斜的。标准归一化不能解释这一点,因此在归一化后,平均值和标准偏差可能相同,但一个分布是倾斜的,而另一个分布是对称的

我现在的问题是:是否有一种已知的方法来进行标准规范化,同时考虑变换的倾斜和峰度? 值得一提的是,我的价值观也可能是消极的

我可以看出,这可能不是一个合适的论坛,因此如果有人能给我指出一个可信的统计论坛,我也会非常高兴


奥利

如果您的目标是查看两个数据集是否共享相同的分布,则无需进行规范化。你应该考虑使用A。如果数据共享一个共同的分布,即使使用不同的参数化,结果也会非常接近于一条直线

当两组数据量相同时,生成Q-Q图很容易。对两个集合进行排序,然后配对并绘制它们。如果集合大小不同,则必须为较小的集合插值分位数,这更具挑战性

但在您当前的情况下,如果其中一个集合是倾斜的(基于不止一个或两个异常值),而另一个集合是对称的,那么它们可能来自不同的分布

如果您的数据是正态分布的,那么当真方差用于转换时,“标准化”将产生标准正态分布,而当使用样本方差时,将产生t分布。然而,因为标准化是一种线性变换,所以它是保形的。如果您的数据不正常,标准转换将不会神奇地使它们呈钟形且对称

我所知道的唯一可靠地产生相同参考分布的转换是到分位数的转换。如果随机变量X有可逆的CDF FX,那么FX(X)~U(0,1),也就是说,通过它们自己的CDF映射X,得到归一化为范围(0,1)的分位数。要将其作为转换应用,您必须知道正确的CDF。这就是Q-Q图非常聪明的地方,如果两个数据集具有相同的基本分布,那么它们的分位数将彼此对齐,而不管您是否知道实际分布


底线:如果您想知道两个数据集是否具有相同的分布,请使用Q-Q绘图。如果您希望转换为任何(连续)输入分布生成已知的参考分布,则需要知道实际涉及的CDF。

如果您的目标是查看两个数据集是否共享相同的分布,则无需进行规范化。你应该考虑使用A。如果数据共享一个共同的分布,即使使用不同的参数化,结果也会非常接近于一条直线

当两组数据量相同时,生成Q-Q图很容易。对两个集合进行排序,然后配对并绘制它们。如果集合大小不同,则必须为较小的集合插值分位数,这更具挑战性

但在您当前的情况下,如果其中一个集合是倾斜的(基于不止一个或两个异常值),而另一个集合是对称的,那么它们可能来自不同的分布

如果您的数据是正态分布的,那么当真方差用于转换时,“标准化”将产生标准正态分布,而当使用样本方差时,将产生t分布。然而,因为标准化是一种线性变换,所以它是保形的。如果您的数据不正常,标准转换将不会神奇地使它们呈钟形且对称

我所知道的唯一可靠地产生相同参考分布的转换是到分位数的转换。如果随机变量X有可逆的CDF FX,那么FX(X)~U(0,1),也就是说,通过它们自己的CDF映射X,得到归一化为范围(0,1)的分位数。要将其作为转换应用,您必须知道正确的CDF。这就是Q-Q图非常聪明的地方,如果两个数据集具有相同的基本分布,那么它们的分位数将彼此对齐,而不管您是否知道实际分布


底线:如果您想知道两个数据集是否具有相同的分布,请使用Q-Q绘图。如果您希望转换为任何(连续的)输入分布生成已知的参考分布,那么您需要知道所涉及的实际CDF。

我不确定这种转换是否以通用和独立于分布的方式存在(有人可以称之为“标准”)。对于标准规范化,您所做的是线性变换((x-mu)/sigma),因此您的分布现在类似于N(0,1)-高斯分布,平均值为0,sigma为1

但歪斜计算为歪斜=3*(平均值-中值)/标准偏差。因此,平均值为0,stddev为1,剩下的是
-3*中间值
。所以,如果你现在有非零偏斜度,它意味着非零中值,你想使之为0

因此,剩下的唯一选择是非线性变换,我认为这取决于分布。基本上,pjs制造了simi