Machine learning 如何确定随机周期过程的等待时间期望值?

Machine learning 如何确定随机周期过程的等待时间期望值?,machine-learning,statistics,probability,Machine Learning,Statistics,Probability,我已经有一段时间没有做任何真正的统计了,但我希望Stack Overflow社区能提供帮助。虽然我不能给出确切的应用程序,因为它是专有的,但这里有一个等价的问题: 想象一下,你家附近有一个公共汽车站,但你不知道公共汽车时刻表。取而代之的是,你有一份去年公交车实际到达的确切时间清单。我想做的是计算如下:如果你随机走到公共汽车站,5分钟内有公共汽车的概率是多少?10分钟?20分钟?(我想得到一份分发单) 我已经在谷歌上搜索过了,并且找到了很多使用累积分布函数的例子。。。然而,我还没有找到一个很好的例

我已经有一段时间没有做任何真正的统计了,但我希望Stack Overflow社区能提供帮助。虽然我不能给出确切的应用程序,因为它是专有的,但这里有一个等价的问题:

想象一下,你家附近有一个公共汽车站,但你不知道公共汽车时刻表。取而代之的是,你有一份去年公交车实际到达的确切时间清单。我想做的是计算如下:如果你随机走到公共汽车站,5分钟内有公共汽车的概率是多少?10分钟?20分钟?(我想得到一份分发单)

我已经在谷歌上搜索过了,并且找到了很多使用累积分布函数的例子。。。然而,我还没有找到一个很好的例子来说明如何做我想做的事情

特别是,我希望使用去年的样本来创建我希望使用的概率分布函数


有没有人能举一个很好的例子来说明我是如何做到这一点的?(或者一个有这些数据的网站?)

我可以给你一些建议,可能会有所帮助:

1-为了获得更准确的结果,您需要对一天中的时间(即高峰或非高峰)和一周中的某一天(星期日或周末)进行条件分布,因为公交车频率取决于这些因素

2-根据上述因素,尝试计算两辆公交车之间的持续时间分布(即车头时距)。任何随机到达公交车站的人的预期等待时间等于车头时距的一半

因此,我的方法是将数据集划分为几个时段(例如,工作日早上7点到10点),然后计算这个时段的车头时距,这将是我的分布,我将使用它来计算随机到达公交车站的预期等待时间


等待时间可以建模为指数分布,我还将测试公交车到达过程是否遵循泊松分布(您必须使用数据进行测试,而不仅仅是假设它)正如我上面提到的,你必须根据一天中的时间和一周中的某一天来调整你的分布。

我的建议是使用经验分布,即直方图。您可以根据任何看似重要的因素对可用数据进行分割,例如,巴士示例中的工作日与周末。顺便说一下,请注意,如果到达时间是近似循环的,如您所述,等待时间将取决于您开始等待的时间


在构建直方图并查看它们之后,您可能会发现,您可以通过假设某些特定的分布来简化事情。但是你必须首先利用经验数据来确定这是否可行。

谢谢你的建议:),我同意我们需要为公交车时刻表做类似的事情,但我只是以公交车为例。真正的过程是相当有规律的,并且循环地重复。。。假设你有n辆公共汽车为你的车站服务。公交车的总数是有限的,但您不知道这些公交车的各个时段,但知道它们是规则的和循环的。这取决于您的数据中是否包含公交车标识符或编号。此外,此人是否将乘坐第一辆公交车或等待特定的公交线路。但一般来说,如果数据证实了这一点,即平均值和方差相等,那么公交车到达过程可以建模为
位置分布
。至少从泊松分布开始。它的典型应用是对到达的等待时间进行建模。其他答案是正确的,您可能希望看到到达时间是以一天中的时间为泊松条件的,但泊松是第一次尝试的方式