R 从分布图估计p值阈值

R 从分布图估计p值阈值,r,histogram,distribution,p-value,R,Histogram,Distribution,P Value,我的数据采用以下格式,包括一个特定的统计数据 site LRStat 1 3.580728 2 2.978038 3 5.058644 4 3.699278 5 4.349046 这只是数据的一个样本 然后,我通过排列随机数据对获得了零LR分布。我用它绘制了一个直方图,y轴上有频率,x轴上有LR统计。如何根据零分布确定临界p值截止点(如下图所示) 您现在有了LR值的采样分布。R中的

我的数据采用以下格式,包括一个特定的统计数据

   site     LRStat
   1        3.580728
   2        2.978038
   3        5.058644
   4        3.699278
   5        4.349046
这只是数据的一个样本

然后,我通过排列随机数据对获得了零LR分布。我用它绘制了一个直方图,y轴上有频率,x轴上有LR统计。如何根据零分布确定临界p值截止点(如下图所示)


您现在有了LR值的采样分布。R中的
分位数
函数将为您提供您喜欢的任何“临界值”的估计值。例如,如果您决定使用传统的0.05“p值”,则可以使用名为LR_df的数据帧进行说明,并发出以下命令:

quantile( LR_df[ , 'LRStat'] , 0.95) 
如果你想在图形上显示所有这些“概率”,你可以使用一个与单位互补的值向量。下面的代码为您提供了
LSstat
值,其中给定比例的样本高于该值

quantile( LR_df[ , 'LRStat'] , c(0.9, 0.95, 0.99, 0.999, 0.9999) ) 
p值只是在零假设下检验统计量的抽样分布。在这种情况下,您的无效假设是
lrsts
是均匀分布的。(我知道这样说听起来很奇怪,但如果你想和统计学家争论,那就去拿一份。)p值的选择取决于科学或商业环境。如果你在评估一个投资机会,临界值可能是0.15,但如果你试图找到新的科学知识,我认为它应该更小(更严格的测试)。分子遗传学领域的文献中有很多垃圾(即无法复制结果),因为它们在统计方法上不够严格