R 正态性检验结果解释_R - Fatal编程技术网

R 正态性检验结果解释

R 正态性检验结果解释,r,R,我有一个需要查找的数据集如果分布是正态的在均值和中位数之间，什么应该准确地代表分布的中心趋势在本教程之后，我做了以下工作密度图 > shapiro.test(sample(df[[colName]],5000)) Shapiro-Wilk normality test data: sample(df[[colName]], 5000) W = 0.86463, p-value < 0.00000000000000022 > ad.test(df[[col

我有一个需要查找的数据集

如果分布是正态的

在均值和中位数之间，什么应该准确地代表分布的中心趋势在本教程之后，我做了以下工作

密度图

> shapiro.test(sample(df[[colName]],5000))

    Shapiro-Wilk normality test

data:  sample(df[[colName]], 5000)
W = 0.86463, p-value < 0.00000000000000022

> ad.test(df[[colName]])

    Anderson-Darling normality test

data:  df[[colName]]
A = 213650, p-value < 0.00000000000000022

Q-Q图

> shapiro.test(sample(df[[colName]],5000))

    Shapiro-Wilk normality test

data:  sample(df[[colName]], 5000)
W = 0.86463, p-value < 0.00000000000000022

> ad.test(df[[colName]])

    Anderson-Darling normality test

data:  df[[colName]]
A = 213650, p-value < 0.00000000000000022

Shapiro-Wilk测试

> shapiro.test(sample(df[[colName]],5000))

    Shapiro-Wilk normality test

data:  sample(df[[colName]], 5000)
W = 0.86463, p-value < 0.00000000000000022

> ad.test(df[[colName]])

    Anderson-Darling normality test

data:  df[[colName]]
A = 213650, p-value < 0.00000000000000022

>shapiro.test（样本（df[[colName]]，5000））
夏皮罗-威尔克正态性检验
数据：样本（df[[colName]]，5000）
W=0.86463，p值<0.00000000000000022

安德森-达林测试

> shapiro.test(sample(df[[colName]],5000))

    Shapiro-Wilk normality test

data:  sample(df[[colName]], 5000)
W = 0.86463, p-value < 0.00000000000000022

> ad.test(df[[colName]])

    Anderson-Darling normality test

data:  df[[colName]]
A = 213650, p-value < 0.00000000000000022

>ad.test（df[[colName]]）
安德森-达林正态性检验
数据：df[[colName]]
A=213650，p值<0.00000000000000022

我所理解的一般指导是，如果p值大于0.05，则基本分布为正态的假设是正确的

在上面的测试中，我得到的p值是

p-value<0.00000000000000022

，而不是一个精确的值。我如何解释这一点？我应该用平均值还是中位数来表示分布的中心趋势？

这不是一个关于R的问题，你会从任何统计语言中得到类似的结果。也就是说

在这个问题上我们可以犯两种错误。如果这个分布真的是正态的，我们就可以错误地得出这个分布不是正态的结论。如果分布不正态，我们就可能错误地认为它是正态的。这些错误分别称为类型1和类型2错误。现在，如果分布是正态的，我们对数据的行为有了很好的了解——至少是渐进的。如果真实分布不是正态分布，我们就不能说它的行为。也许它实际上是一个df=100的t分布——这看起来很像正常，尽管从技术上讲它不是正常的。它可能是指数，对数正态，伽马，。。。“不正常”不说它是什么，只说它不是什么（不正常）

由于这种不对称性，这些测试的想法如下：

将观察到的数据与我们期望看到的数据进行比较，看其是否真的正常。测量我们观察到的数据与我们预期看到的数据相比有多大差异

计算我们观察到的差异至少与我们实际观察到的差异一样极端的概率。这就是我们所说的p值

确定我们的p值是否足够小，从而得出结论，即分布实际上不可能是正态的

对于那些不熟悉统计数据的人来说，这里有两个棘手的问题。首先是理解为什么我们需要“至少是极端的”，而不仅仅是计算我们看到观测数据的概率。这是因为精确获得任何给定距离的概率为0。我们需要查看范围以获得实际的非零概率。。。这里最有意义的范围是看更极端的事情

第二个棘手的问题是结论。统计测试的工作原理与美国的刑事审判类似（或者至少，它们应该如何工作）。正如被告在被证明有罪之前是无罪的一样，我们假设无效假设为真（本案中的无效假设为“分布正常”）。只有当p值足够小时，我们才会拒绝它，并说有足够的证据得出分布不正态的结论。重要的是，我们从不证明无效假设。如果数据确实遵循100个自由度的t分布，我们几乎肯定无法拒绝零假设，并犯下第2类错误（在不应该的时候保留零假设）
这就把我们带到了下一点——多小才算足够小？作为统计学的创始人之一，一位名叫R.a.费舍尔的才华横溢的人认为0.05似乎是正确的——从那以后，这一直是标准。有时使用0.01或0.1代替，但0.05更常见。这个界限有一个重要的解释——它也是我们犯1型错误的概率——错误地拒绝了无效假设，而我们不应该这样做
现在，来解释你的结果。在您的情况下，无论您使用0.01、0.05还是0.1都无关紧要—您的p值比它们中的任何一个都要低。事实上，它们足够小，以至于计算机可能会开始出现机器错误（这些错误是因为我们试图用有限数量的计算机字节来表示不可数的集合而发生的）——甚至可能无法精确计算精确的p值（而准确的数字几乎总是不那么重要）
对于如此小的p值，测试表明，从正态分布中实际获得观测数据几乎是不可能的。您可以安全地拒绝零假设，并得出分布不正态的结论
更新：平均值与中值正如在评论中所说的，没有一个正确的答案——这实际上取决于你想要完成什么。常见的建议是，中位数用于非对称分布，而平均值更常用于对称分布。这是真的，但我认为这与可变性的测量有关，而不是平均值
对于对称分布，单个数字（例如标准差或方差）可以很好地描述数据的可变性。这是一阶矩和二阶矩的函数，与一阶矩（平均值）很好地配对。对于非对称分布，您需要分别查看分布的左侧和右侧，因为它们是不同的。假设您使用范围（也对应于第0百分位和第100百分位）捕捉到这一点。您还可以使用四分位范围（第25和第75个百分位）来捕捉这一点，或者(