Statistics 在95%的置信度下,我应该使用哪个统计分布模型来确定样本总体平均值为0.5的可能性?

Statistics 在95%的置信度下,我应该使用哪个统计分布模型来确定样本总体平均值为0.5的可能性?,statistics,Statistics,为了提供更多细节,我尝试在一个网页上对评论进行排名,用户可以喜欢或不喜欢某个评论。我特别想排名最高,用户的意见分歧最大。这意味着相似/不相似比率应尽可能接近0.5。我知道我的喜欢/不喜欢功能是贝努利参数的一种形式。我还希望注释A(50喜欢/51不喜欢)的排名高于注释B(1喜欢/1不喜欢),这意味着我需要加入威尔逊置信区间。不过,我对我的统计数据有点生疏,所以我记不起把这些数据放在一起的公式 有人能帮我吗?完全披露:我是一名生物统计学家,在这方面没有太多经验。如果有常用的技术或惯例,我可能还没有听

为了提供更多细节,我尝试在一个网页上对评论进行排名,用户可以喜欢或不喜欢某个评论。我特别想排名最高,用户的意见分歧最大。这意味着相似/不相似比率应尽可能接近0.5。我知道我的喜欢/不喜欢功能是贝努利参数的一种形式。我还希望注释A(50喜欢/51不喜欢)的排名高于注释B(1喜欢/1不喜欢),这意味着我需要加入威尔逊置信区间。不过,我对我的统计数据有点生疏,所以我记不起把这些数据放在一起的公式


有人能帮我吗?

完全披露:我是一名生物统计学家,在这方面没有太多经验。如果有常用的技术或惯例,我可能还没有听说过

尽管如此,在我看来,传统的常客统计并不能很好地回答这个问题。假设检验通常寻找一个参数不等于某个值的证据强度,越来越多的数据通常为不平等性提供更多的证据权重。你所描述的置信区间方法更好(你可以根据区间的宽度给出权重)——但当区间不在0.5时,怎么做并不十分明显。注意:有几种方法可以为二项式p参数构造置信区间,实际上并没有“错误”的方法

这里有一个稍微特别的解决方案,它实际上可能工作得很好(并且有一些贝叶斯基础):改用Beta发行版。β由两个参数(a和b)定义,概率密度定义为

f(y)=((a+b-1)!/((a-1)!(b-1)!)(y^(a-1))((1-y)^(b-1))
它是在区间(0,1)上定义的,通常看起来像a/(a+b)处概率质量的凹凸。您可以将a和b视为两个决斗参数,试图在任一方向拉动凹凸。有趣的是,当a和b变大时,即使比例相同,凹凸也会变得更高、更瘦

如果您有R,请尝试绘图

curve(dbeta(x,10,10))
curve(dbeta(x,5,5), add=T, col="red")
curve(dbeta(x,2,2), add=T, col="blue")
因此,使用你对a的“是”票数和对b的“否”票数,然后你可以考虑得到描述潜在p参数概率分布的Beta分布。从数学上讲,这相当于贝叶斯贝塔二项模型,贝塔(0,0)先验

对于权重,您可以对概率质量进行积分,该概率质量由0.45和0.55(或更窄或更宽)之间的区域定义。。。或者更简单,甚至可以使用y=0.5时的曲线高度

同样,在R中,使用曲线高度的概念

### some trial weights
dbeta(0.5, 1, 1)  # one yes, one no
# 1

dbeta(0.5, 2, 2)  # 2 yes, 2 no
# 1.5

dbeta(0.5, 4, 6)  # 4 yes, 6 no
# 1.96875

dbeta(0.5, 3, 7)  # 3 yes, 7 no
# 0.984375

dbeta(0.5, 49, 51)  # 49 yes, 51 no
# 7.799745

这取决于您,但对我来说似乎相当可行。

为了看看这个模型是否适用于我,我制作了一个从(1,1)到(100100)的所有0.5值的3D图,如果你好奇的话。