Math 服务器日志的统计分析.外推的正确性

Math 服务器日志的统计分析.外推的正确性,math,statistics,Math,Statistics,有一天,我们的ISP出现了大约10分钟的故障,不幸的是,这发生在从多个位置编写的托管考试期间 不幸的是,这导致正在进行的候选人当前页面的回发数据丢失 我可以从服务器日志重建事件流。然而,在317名候选人中,175人使用了本地代理,这意味着他们似乎都来自同一个IP。我分析了其余142人(45%)的数据,得出了一些关于他们发生了什么的好数字 问题:将我所有的数字乘以317/142,以获得整个集合的可能结果,正确程度如何?我的(联合国)确定区域是什么 请不要猜测。我需要一个在统计课上没有睡着的人来回答

有一天,我们的ISP出现了大约10分钟的故障,不幸的是,这发生在从多个位置编写的托管考试期间

不幸的是,这导致正在进行的候选人当前页面的回发数据丢失

我可以从服务器日志重建事件流。然而,在317名候选人中,175人使用了本地代理,这意味着他们似乎都来自同一个IP。我分析了其余142人(45%)的数据,得出了一些关于他们发生了什么的好数字

问题:将我所有的数字乘以317/142,以获得整个集合的可能结果,正确程度如何?我的(联合国)确定区域是什么

请不要猜测。我需要一个在统计课上没有睡着的人来回答


编辑:根据数字,我指的是受影响个人的数量。例如,5/142显示会话期间浏览器崩溃的证据。11/317发生浏览器崩溃的推断有多正确?

我不确定我们讨论的确切测量值,但现在让我们假设您想要的是平均分数。无需对人口(317名候选人)的平均得分进行调整。只需使用样本的平均值(您分析其数据的142个样本)

要找到您的不确定区域,您可以使用中给出的公式。你必须首先决定你愿意有多不确定。让我们假设你想要95%的置信度,即真实的总体平均值在区间内。然后,真实总体平均值的置信区间为:

(样本平均数)+/-1.960*(样本标准偏差)/sqrt(样本量)

你可以做进一步的修正,以获得相对于人口的大样本。他们将把置信区间缩短约1/4,但有大量假设认为上述计算已经使其不那么保守。一个假设是分数近似正态分布。另一个假设是,样本代表总体。您提到缺少的数据都来自使用同一代理的候选人。使用该代理的人群子集可能与其他人群非常不同

编辑:因为我们讨论的是带有属性的样本比例,例如“浏览器崩溃”,所以情况有点不同。我们需要对一个比例使用一个置信区间,并通过乘以人口规模将其转换为若干成功案例。这意味着我们对崩溃浏览器数量的最佳估计是5*317/142~=11,正如您所建议的那样

如果我们再次忽视我们的样本几乎占总人口的一半这一事实,我们可以使用。A为您处理公式。计算器和公式的输出是总体分数的上限和下限。要获得碰撞次数的范围,只需将上限和下限乘以(总体大小-样本大小),然后将样本中的碰撞次数相加。虽然我们可以简单地乘以总体规模来得到时间间隔,但这将忽略我们已经知道的关于样本的信息

基于142个样本点中的5次崩溃,使用上述程序,317人中的浏览器崩溃总数的95%C.I.为7.6到19.0