Statistics 这项技术叫什么名字?

Statistics 这项技术叫什么名字?,statistics,data-mining,Statistics,Data Mining,我有一个原始日志文件,我想提取事件之间的关系/行为模式 但重要的一点是,我没有ActivityId/GroupId/SessionId,我可以对它们进行集群(指流程挖掘),所以它可以在日志中随时开始,随时结束 我的问题是什么样的技术可以从日志中提取行为状态,如下所示: t1, event1 t2, event2 t2, event3 t3, event4 ... t5, event11 t[N]-是时间,周期性不是恒定的(一个事件可以在1分钟内发生,下一个事件可以在5分钟内发生,然后20分钟后

我有一个原始日志文件,我想提取事件之间的关系/行为模式

但重要的一点是,我没有ActivityId/GroupId/SessionId,我可以对它们进行集群(指流程挖掘),所以它可以在日志中随时开始,随时结束

我的问题是什么样的技术可以从日志中提取行为状态,如下所示:

t1, event1
t2, event2
t2, event3
t3, event4
...
t5, event11
t[N]-是时间,周期性不是恒定的(一个事件可以在1分钟内发生,下一个事件可以在5分钟内发生,然后20分钟后4个事件可以在同一时间发生)

在那里我可以说给我所有可能的序列,导致事件10

理想情况下,我想要的是能够产生以下结果的东西,可以在后面描述为许多不同的状态机(意味着可以在这两者之间跳过一些事件,我只等待我关心的条件):

从事件流中提取这些信息的可能技术是什么?
我所知道的大多数东西都是从事件包的角度来研究数据,然后在包中搜索相似的模式,但是如果我没有这个分组,但仍然想提取一些重复的过程/模式呢?

频繁序列挖掘


频繁项集挖掘的一个变体考虑了时间顺序。

但是我需要序列id吗?或者可以是没有任何标识符的事件流?大多数示例都有CID(序列id)。没错,这些方法通常使用一组序列。但我认为文学中提到了一些处理这个问题的方法。我想这需要一些折衷,比如使用滑动窗。嗯,好的,谢谢。我最初的问题是要找出不需要任何假设(如滚动窗口大小等)的任何技术。因为定义正确的窗口大小是另一个故事挑战:)我不知道这些方法使用什么。但很明显,如果你不想找到所有的东西,你确实需要对什么是可容许解做一些假设/限制。例如,序列不会重叠。然后,如果您最感兴趣,您可以在每次“事件10”之后简单地分割数据。
event5 -> event6 -> event7
event2 -> (NOT event6 + event7) -> event10
event1 -> (event8 + event9) -> (event10+event11) -> even13