Math 我应该如何以统计上正确的方式分析web流量?

Math 我应该如何以统计上正确的方式分析web流量?,math,statistics,webserver,Math,Statistics,Webserver,我有一个文件,其中包含一系列事件时间戳,对应于某人访问网站的时间: 02.02.2010 09:00:00 02.02.2010 09:00:00 02.02.2010 09:00:00 02.02.2010 09:00:01 02.02.2010 09:00:03 02.02.2010 09:00:05 02.02.2010 09:00:06 02.02.2010 09:00:06 02.02.2010 09:00:09 02.02.2010 09:00:11 02.02.2010 09:00

我有一个文件,其中包含一系列事件时间戳,对应于某人访问网站的时间:

02.02.2010 09:00:00
02.02.2010 09:00:00
02.02.2010 09:00:00
02.02.2010 09:00:01
02.02.2010 09:00:03
02.02.2010 09:00:05
02.02.2010 09:00:06
02.02.2010 09:00:06
02.02.2010 09:00:09
02.02.2010 09:00:11
02.02.2010 09:00:11
02.02.2010 09:00:11
等等,几千行

我想了解web点击量是如何随时间、周等分布的。我需要知道我应该如何扩展(未来)web服务器,以便在给定的9个数量下保证服务可用性。特别是,我需要给出几乎同时访问的数量的上限


是否有任何资源可以解释如何做到这一点?我精通数学和统计学,也研究过排队论,但似乎该理论假设到达率与一天中的时间无关,这在我的例子中显然是错误的。不,直方图不是正确的答案,因为结果很大程度上取决于箱子的宽度和位置。

好吧,准备好“AWStats/Webalizer/Analog Stats/Favorite http log Stats viewer of the month”的大量回答

它们都有柱状图,但那是因为它们的设计有助于提供游客流量的大致情况


我建议您查看一下它是否满足您的要求。

如果您不想使用直方图,您可以只绘制内核密度图吗?

几乎并发的访问是否可以定义或近似为在同一秒钟内发生的访问?如果是,以下是我将如何进行:

  • 计算数据中每秒钟的访问次数。这将包括0次访问的几秒钟-不要排除它们
  • 假设每秒的访问次数具有泊松分布,其速率在一天内甚至一周内都会发生变化,这可能是合理的。因此,确定哪些是相关的预测因素(一天中的时间、一周中的天、一个月?),并使用泊松回归对计数进行建模。你可以使用样条曲线来表示连续变量(例如一天中的时间),我相信甚至有一些“循环”样条曲线可以考虑到11:58 pm接近00:02 AM。或者你可以把时间分割成更小的离散片段,比如说10分钟的间隔。如果你真的想成为一名花花公子,在模型中加入自相关和过度分散
  • 根据拟合模型,您可以估计您想要的任何百分比

  • 当然,这在统计上是非常奇妙的,你必须知道你在做什么,但我认为它可以工作。

    你可以在到达率参数上放置一个更灵活的模型。例如,将到达率作为时间的函数,或者在其上放置一些时间序列样式的模型。任何对你的数据有意义的东西。文献通常关注核心模型,因为扩展是特定于应用程序的

    在扩展模型中,您几乎肯定会希望使用贝叶斯方法。您对对象“几乎同时发生的事件”的后验预测分布感兴趣。JASA最近的一篇论文描述了您的问题,应用于呼叫中心数据:


    对于快速解决方案,不要低估直方图风格估计器的能力。它们是简单的非参数估计器,您可以交叉验证调整参数,如binwidth和placement。从理论上讲,这有点不令人满意,但实施起来需要一天时间。完全贝叶斯方法可能会占主导地位,但需要大量的计算成本。

    你是对的,大多数理论都假设了一个点击率,而你没有,因为点击率随时间而变化。然而,你不能将数据分层,比如说,一天中每小时一个数据块,并假设在一个小时内每秒/分钟/任何单位的点击数分布近似为泊松分布吗?可能有更好的方法(从理论角度来看),但这种方法的优点是易于实施,并且易于向任何有统计背景的人解释。

    我想你可以说,你的点击量是根据平均值和变化随时间而变化的时间分布的

    为了更好地了解峰值负载,我将从一个散点图开始,该散点图显示水平轴上的命中时间以及该命中与垂直轴上的下一次命中之间的时间

    这会让你很好地了解山峰的高度和持续时间。然后你可以计算一个滑动窗口的泊松分布,这个滑动窗口的长度和一天中每个时刻的持续时间相似。有点像移动平均线。均值和方差最低的区域将为您估计预期未来峰值负荷提供良好的基础