Statistics 如何根据以前的事件预测下一个事件何时发生?

Statistics 如何根据以前的事件预测下一个事件何时发生?,statistics,prediction,Statistics,Prediction,基本上,我有一个相当大的列表(相当于一年的数据),列出了单个离散事件发生的时间(对于我当前的项目,一个有人打印某物的时间列表)。基于此列表,我想构建一个某种统计模型,根据之前的所有事件时间预测下一个事件(下一个打印作业)的最可能时间 我已经读过了,但是这些回答并不能完全帮助我对我的项目有什么想法。我做了一些额外的研究,发现a可能允许我准确地这样做,但我找不到一个关于如何仅使用一个时间列表生成隐马尔可夫模型的链接。我还发现,在列表中使用a可能很有用,但基本上,我想从实际使用过它的人那里获得更多关于

基本上,我有一个相当大的列表(相当于一年的数据),列出了单个离散事件发生的时间(对于我当前的项目,一个有人打印某物的时间列表)。基于此列表,我想构建一个某种统计模型,根据之前的所有事件时间预测下一个事件(下一个打印作业)的最可能时间

我已经读过了,但是这些回答并不能完全帮助我对我的项目有什么想法。我做了一些额外的研究,发现a可能允许我准确地这样做,但我找不到一个关于如何仅使用一个时间列表生成隐马尔可夫模型的链接。我还发现,在列表中使用a可能很有用,但基本上,我想从实际使用过它的人那里获得更多关于它的信息,并且在尝试某些东西并希望它能起作用之前,了解他们的限制和要求

非常感谢


编辑:根据Amit在评论中的建议,我也将此发布到了。如果你确实知道我应该做什么,请在这里或那里发布

想象一个像图一样的马尔可夫链,顶点通过权重或距离相互连接。在这张图上移动会消耗掉你移动的重量或距离的总和。以下是文本生成的示例:

我真的看不出马尔可夫模型在这里有什么用处。当您预测的事件依赖于以前的事件时,通常使用马尔可夫模型。当然,典型的例子是文本,一个好的马尔可夫模型可以很好地猜测下一个字符或单词是什么

但是,用户何时打印下一个东西,是否有一种模式?也就是说,你看到工作之间的时间规律了吗?如果是这样,那么马尔可夫模型将起作用。如果不是,那么马尔可夫模型将是一个随机猜测

在如何建模中,将工作之间的不同时间段想象成字母表中的字母。事实上,您可以为每个时间段指定一个字母,类似于:

A - 1 to 2 minutes
B - 2 to 5 minutes
C - 5 to 10 minutes
etc.

然后,检查数据并为打印作业之间的每个时间段分配一个字母。完成后,您就有了一个数据的文本表示,您可以运行任何进行文本预测的马尔可夫示例。

如果您有一个您认为可能与问题域相关的实际模型,您应该应用它。例如,可能存在与一周中的某一天、某一天的某个时间以及可能的日期相关的模式(假期可能会显示较低的使用率)

大多数基于检查(比如)相邻事件之间的时间的原始统计建模技术都难以捕捉这些潜在影响


我将为每个已知事件(一周中的某一天等)建立一个统计模型,并使用该模型预测未来的事件。

卡尔曼滤波器用于跟踪状态向量,通常具有连续(或至少离散化的连续)动态。这是零星离散事件的极性相反,所以除非你有一个包含这种状态向量(或者是线性的,或者几乎是线性的)的基础模型,否则你可能不需要卡尔曼滤波器

听起来你好像没有一个底层模型,正在四处寻找:你有一个钉子,正在工具箱里试用文件、螺丝刀和卷尺(8^)


我最好的建议是:首先,利用你对问题的了解来建立模型;然后根据模型找出解决问题的方法。

我认为预测神经网络将是一种很好的方法。

该方法也用于预测f.x.天气预报、股票标记、太阳黑子。 如果你想了解更多关于它的工作原理,这里有一个教程。
我承认,我不是一个喜欢统计的人。但我以前遇到过这样的问题。实际上,我们在这里讨论的是,你有一些观察到的,离散的事件,你想知道你在任何给定的时间点看到它们发生的可能性有多大。现在的问题是,您希望获取离散数据,并从中生成连续数据

我想到的术语是。明确地您可以通过简单的装箱(例如,在一个时间间隔内(例如每四分之一小时或每小时)计算事件数)获得内核密度估计的一些效果。内核密度估计只是比简单装箱具有更好的统计特性。(生成的数据通常“更平滑”。)

不过,这只解决了你的一个问题。下一个问题仍然是更有趣的问题——如何获取数据的时间线(在本例中,仅为打印机数据)并从中生成预测?首先,你设置问题的方式可能不是你想要的。虽然拥有一个有限的数据源并预测该数据源的下一步的神奇想法听起来很吸引人,但整合更多的数据源以创建实际的预测要实际得多。(例如,可能是在手机活动频繁之后,打印机受到了沉重的打击——这在一些公司是很难预测的)Netflix挑战就是这一点的有力例子

当然,更多数据源的问题在于需要额外的人力来建立收集数据的系统

诚然,我认为这是一个领域特定的问题,并采用两种方法:找到与时间无关的模式,并找到时间依赖的模式。 一个与时间相关的模式是,Suzy每周4:30打印一天结束报告。这发生在一周中每天的特定时间。这种东西很容易在固定的时间间隔内被发现。(每天、每周、每个周末、每个星期二、每个月的第一天等等)这对d来说非常简单