Math 服务器日志的统计分析.外推的正确性_Math_Statistics

Math 服务器日志的统计分析.外推的正确性

math statistics

Math 服务器日志的统计分析.外推的正确性,math,statistics,Math,Statistics,有一天，我们的ISP出现了大约10分钟的故障，不幸的是，这发生在从多个位置编写的托管考试期间不幸的是，这导致正在进行的候选人当前页面的回发数据丢失我可以从服务器日志重建事件流。然而，在317名候选人中，175人使用了本地代理，这意味着他们似乎都来自同一个IP。我分析了其余142人（45%）的数据，得出了一些关于他们发生了什么的好数字问题：将我所有的数字乘以317/142，以获得整个集合的可能结果，正确程度如何？我的（联合国）确定区域是什么请不要猜测。我需要一个在统计课上没有睡着的人来回答

有一天，我们的ISP出现了大约10分钟的故障，不幸的是，这发生在从多个位置编写的托管考试期间

不幸的是，这导致正在进行的候选人当前页面的回发数据丢失

我可以从服务器日志重建事件流。然而，在317名候选人中，175人使用了本地代理，这意味着他们似乎都来自同一个IP。我分析了其余142人（45%）的数据，得出了一些关于他们发生了什么的好数字

问题：将我所有的数字乘以317/142，以获得整个集合的可能结果，正确程度如何？我的（联合国）确定区域是什么

请不要猜测。我需要一个在统计课上没有睡着的人来回答

编辑：根据数字，我指的是受影响个人的数量。例如，5/142显示会话期间浏览器崩溃的证据。11/317发生浏览器崩溃的推断有多正确？

我不确定我们讨论的确切测量值，但现在让我们假设您想要的是平均分数。无需对人口（317名候选人）的平均得分进行调整。只需使用样本的平均值（您分析其数据的142个样本）

要找到您的不确定区域，您可以使用中给出的公式。你必须首先决定你愿意有多不确定。让我们假设你想要95%的置信度，即真实的总体平均值在区间内。然后，真实总体平均值的置信区间为：

（样本平均数）+/-1.960*（样本标准偏差）/sqrt（样本量）

你可以做进一步的修正，以获得相对于人口的大样本。他们将把置信区间缩短约1/4，但有大量假设认为上述计算已经使其不那么保守。一个假设是分数近似正态分布。另一个假设是，样本代表总体。您提到缺少的数据都来自使用同一代理的候选人。使用该代理的人群子集可能与其他人群非常不同

编辑：因为我们讨论的是带有属性的样本比例，例如“浏览器崩溃”，所以情况有点不同。我们需要对一个比例使用一个置信区间，并通过乘以人口规模将其转换为若干成功案例。这意味着我们对崩溃浏览器数量的最佳估计是5*317/142~=11，正如您所建议的那样

如果我们再次忽视我们的样本几乎占总人口的一半这一事实，我们可以使用。A为您处理公式。计算器和公式的输出是总体分数的上限和下限。要获得碰撞次数的范围，只需将上限和下限乘以（总体大小-样本大小），然后将样本中的碰撞次数相加。虽然我们可以简单地乘以总体规模来得到时间间隔，但这将忽略我们已经知道的关于样本的信息

基于142个样本点中的5次崩溃，使用上述程序，317人中的浏览器崩溃总数的95%C.I.为7.6到19.0