Statistics 这项技术叫什么名字？_Statistics_Data Mining

Statistics 这项技术叫什么名字？

statistics

Statistics 这项技术叫什么名字？,statistics,data-mining,Statistics,Data Mining,我有一个原始日志文件，我想提取事件之间的关系/行为模式但重要的一点是，我没有ActivityId/GroupId/SessionId，我可以对它们进行集群（指流程挖掘），所以它可以在日志中随时开始，随时结束我的问题是什么样的技术可以从日志中提取行为状态，如下所示： t1, event1 t2, event2 t2, event3 t3, event4 ... t5, event11 t[N]-是时间，周期性不是恒定的（一个事件可以在1分钟内发生，下一个事件可以在5分钟内发生，然后20分钟后

我有一个原始日志文件，我想提取事件之间的关系/行为模式

但重要的一点是，我没有ActivityId/GroupId/SessionId，我可以对它们进行集群（指流程挖掘），所以它可以在日志中随时开始，随时结束

我的问题是什么样的技术可以从日志中提取行为状态，如下所示：

t1, event1
t2, event2
t2, event3
t3, event4
...
t5, event11

t[N]-是时间，周期性不是恒定的（一个事件可以在1分钟内发生，下一个事件可以在5分钟内发生，然后20分钟后4个事件可以在同一时间发生）

在那里我可以说给我所有可能的序列，导致事件10

理想情况下，我想要的是能够产生以下结果的东西，可以在后面描述为许多不同的状态机（意味着可以在这两者之间跳过一些事件，我只等待我关心的条件）：

从事件流中提取这些信息的可能技术是什么？

我所知道的大多数东西都是从事件包的角度来研究数据，然后在包中搜索相似的模式，但是如果我没有这个分组，但仍然想提取一些重复的过程/模式呢？

频繁序列挖掘

频繁项集挖掘的一个变体考虑了时间顺序。

但是我需要序列id吗？或者可以是没有任何标识符的事件流？大多数示例都有CID（序列id）。没错，这些方法通常使用一组序列。但我认为文学中提到了一些处理这个问题的方法。我想这需要一些折衷，比如使用滑动窗。嗯，好的，谢谢。我最初的问题是要找出不需要任何假设（如滚动窗口大小等）的任何技术。因为定义正确的窗口大小是另一个故事挑战：）我不知道这些方法使用什么。但很明显，如果你不想找到所有的东西，你确实需要对什么是可容许解做一些假设/限制。例如，序列不会重叠。然后，如果您最感兴趣，您可以在每次“事件10”之后简单地分割数据。

event5 -> event6 -> event7
event2 -> (NOT event6 + event7) -> event10
event1 -> (event8 + event9) -> (event10+event11) -> even13