R:QQ图中的样本大小考虑

R:QQ图中的样本大小考虑,r,quantile,R,Quantile,通常使用图形来评估给定样本的正态性。然而,QQ图需要较大的样本量才能可靠地代表被抽样的人群。在一些文本中,据说至少一千个样本是可取的。这是一个示例R代码,描述了以下内容: par(mfrow=c(2,3)) for(i in c(10, 100, 1e+3, 1e+4, 1e+5, 1e+6)){ data <- rnorm(i, mean = 0, sd = 1) qqnorm(data, main=sprintf("Sample Size=%d", i)); qqline(da

通常使用图形来评估给定样本的正态性。然而,QQ图需要较大的样本量才能可靠地代表被抽样的人群。在一些文本中,据说至少一千个样本是可取的。这是一个示例R代码,描述了以下内容:

par(mfrow=c(2,3))
for(i in c(10, 100, 1e+3, 1e+4, 1e+5, 1e+6)){
  data <- rnorm(i, mean = 0, sd = 1)
  qqnorm(data, main=sprintf("Sample Size=%d", i)); qqline(data, col='red')
} 
par(mfrow=c(2,3))
(c(10100,1e+3,1e+4,1e+5,1e+6)中的i){

数据关于回答您的问题的一般回答,我首先请您参考一篇文章。下面的评论总结了作者所做的工作

一般来说,对于Q-Q图,基本思想是根据所讨论的分布计算每个数据点的理论期望值。如果数据遵循选定的分布,则Q-Q图上的点应大致在直线上

作为一个有助于说明如何解释图的摘要,这里有一些指针。请注意,这是一些解释的主观因素,如下所示:

  • 如果理论分布和数据分布的分位数一致,则绘制的点落在直线上或附近

  • 如果理论分布和数据分布仅在位置或比例上不同,则绘图上的点位于直线上或直线附近。斜率和截距是对理论分布的比例和位置参数的直观估计

  • 对于位置和比例参数的图形估计,Q-Q图比概率图更方便,因为Q-Q图的-轴是线性缩放的。另一方面,概率图更方便估计百分位数或概率

我在工作中使用的SAS有。正如他们所指出的,我引用:

“一般来说,Q-Q图中的点模式可能不是线性的原因有很多。Chambers等人(1983)和Fowlkes(1987)讨论了常见的偏离线性的解释。他们提供了很好的起点。以下是一个小结:

  • 除了几个点之外,所有的点都落在一条线上->数据中的异常值
  • 图案左端在线条下方;图案右端在线条上方-> 数据分布两端的长尾巴
  • 图案左端在线条上方;图案右端在线条下方-> 数据分布两端的短尾
  • 斜率从左向右增加的曲线模式->数据分布向右倾斜
  • 斜率从左向右递减的曲线模式->数据分布向左倾斜
  • 楼梯模式(高原和间隙)-> 数据已四舍五入或离散”

最后,就样本量而言,在判断q-q图与直线的接近程度时,应考虑样本量。也就是说,对于少量的n,您可能会期望在q-q图输出的直线末端检测到一些随机变化偏差。

下面的评论总结了作者所做的工作

一般来说,对于Q-Q图,基本思想是根据所讨论的分布计算每个数据点的理论期望值。如果数据遵循选定的分布,则Q-Q图上的点应大致在直线上

作为一个有助于说明如何解释图的摘要,这里有一些指针。请注意,这是一些解释的主观因素,如下所示:

  • 如果理论分布和数据分布的分位数一致,则绘制的点落在直线上或附近

  • 如果理论分布和数据分布仅在位置或比例上不同,则绘图上的点位于直线上或直线附近。斜率和截距是对理论分布的比例和位置参数的直观估计

  • 对于位置和比例参数的图形估计,Q-Q图比概率图更方便,因为Q-Q图的-轴是线性缩放的。另一方面,概率图更方便估计百分位数或概率

我在工作中使用的SAS有。正如他们所指出的,我引用:

“一般来说,Q-Q图中的点模式可能不是线性的原因有很多。Chambers等人(1983)和Fowlkes(1987)讨论了常见的偏离线性的解释。他们提供了很好的起点。以下是一个小结:

  • 除了几个点之外,所有的点都落在一条线上->数据中的异常值
  • 图案左端在线条下方;图案右端在线条上方-> 数据分布两端的长尾巴
  • 图案左端在线条上方;图案右端在线条下方-> 数据分布两端的短尾
  • 斜率从左向右增加的曲线模式->数据分布向右倾斜
  • 斜率从左向右递减的曲线模式->数据分布向左倾斜
  • 楼梯模式(高原和间隙)-> 数据已四舍五入或离散”

最后,就样本量而言,在判断q-q图与直线的接近程度时,应考虑样本量。也就是说,对于少量的n,您可能会期望在q-q图输出的直线末端发现一些随机变化偏差。

我认为问题的形式不正确,这这对我来说并不奇怪,因为我对教授标准六西格玛课程的人的经验是,他们信奉一种宗教,而不是努力学习真正的统计学。我并不是说你就是这样一个人,这是基于sampl的观察