Logging 服务器日志数据的机器学习

Logging 服务器日志数据的机器学习,logging,machine-learning,Logging,Machine Learning,我最近访问了大量服务器日志数据(在新作业中)。我在大学里有一些机器学习的经验。日志数据包括服务器日志、数据库访问日志等。我想知道从这些数据中可以学到什么 我尝试过的一件小事是根据上周的数据预测一天中某个小时的请求数量,这似乎还可以,但这有点微不足道。所以 从这些数据中可以学到什么? 根据以前的垃圾邮件发送者的一些使用模式,可能会预测IP在广告上进行垃圾邮件点击的概率(是的,该公司是这样做的) 可能在预测什么时候交通量会激增 是否有专门利用的现有工具/项目 有没有关于类似内容的有趣资源/论文

我最近访问了大量服务器日志数据(在新作业中)。我在大学里有一些机器学习的经验。日志数据包括服务器日志、数据库访问日志等。我想知道从这些数据中可以学到什么

我尝试过的一件小事是根据上周的数据预测一天中某个小时的请求数量,这似乎还可以,但这有点微不足道。所以

  • 从这些数据中可以学到什么?
    • 根据以前的垃圾邮件发送者的一些使用模式,可能会预测IP在广告上进行垃圾邮件点击的概率(是的,该公司是这样做的)
    • 可能在预测什么时候交通量会激增
  • 是否有专门利用的现有工具/项目
  • 有没有关于类似内容的有趣资源/论文
  • 此外,在服务器上的特定时间内,与数据相关的流程活动也会发生。这对学习有用吗
看一看 等人(2010年) 以及他们引用的作品。简言之,他们:

  • 从源代码中提取日志模板(例如“写入文件%s”),以从日志中提取标识符(日志中与%s对应的内容是标识符)。他们使用某些启发式方法来区分标识符和非标识符(例如时间)
  • 使用值之间的比率而不是原始数字(例如,失败提交和所有提交的比率)
  • 使用主成分分析发现这些特征向量中的异常
  • 你可能做不到1。但也许您可以通过编写自己的“解析器”来提取变量

    此外,在这些数据中发现攻击的可能性也很大,但那是近15年前的事了

    有一些工具,如,但除了一个很好的界面,他们没有提供更多的简单搜索和过滤。更新:有一个异常检测插件

    我不知道还有更多。如果你还发现什么,请告诉我

    所以我要做的是:

  • 从日志中提取特征/变量
  • 您可能无法像Xu那样访问生成消息的源代码,但我假设大部分日志可能由少量模式覆盖(例如,所有防火墙日志都将具有相同的模式)。您可以编写正则表达式解析器,从这些日志中提取特征(例如,连接在特定时间被拒绝)

  • 尝试异常检测(PCA,或仅对它们的平均值进行偏差)并对其进行预测

  • 链接已断开:S@inf3rno固定的。