Machine learning 互联网流量分类

Machine learning 互联网流量分类,machine-learning,classification,traffic,Machine Learning,Classification,Traffic,最近,我一直在阅读一些关于互联网流量分类的论文,特别是使用机器学习算法 我计划学习它,我想在这学期的机器学习课上提出一个关于互联网流量分类的项目想法 我的第一步是在由3-4个客户端组成的本地网络上收集数据。我正在使用wireshark工具嗅探数据包 我的下一步是从wireshark数据包中提取TCP流。在这一步中,我尝试在Linux上使用tcpflow。tcpflow为每个流创建不同的文件。在这里,文件的内容大部分是二进制的,我不知道如何从这些文件中提取鉴别器 有人能给我一个想法或分享他/她的经

最近,我一直在阅读一些关于互联网流量分类的论文,特别是使用机器学习算法

我计划学习它,我想在这学期的机器学习课上提出一个关于互联网流量分类的项目想法

我的第一步是在由3-4个客户端组成的本地网络上收集数据。我正在使用wireshark工具嗅探数据包

我的下一步是从wireshark数据包中提取TCP流。在这一步中,我尝试在Linux上使用tcpflow。tcpflow为每个流创建不同的文件。在这里,文件的内容大部分是二进制的,我不知道如何从这些文件中提取鉴别器

有人能给我一个想法或分享他/她的经验,我可以如何解释tcpflow文件?我将非常高兴听到你的推荐


提前谢谢

以下是一些可以从TCP流量中提取的功能的想法:

  • 端口/协议(大多数协议通常在服务器上使用相同的端口)
  • 数据包频率和大小(短命令数据包或长数据流)
  • TCP连接阶段
  • 流错误/重传
  • 流量控制消息和速率限制
为了更好地提取特征,您可能需要查看一些协议(HTTP、DNS等)本身的细节,而不仅仅是TCP流。我认为wireshark已经做到了这一点,那么为什么不重用它们的库功能呢

您可能还想看看IDS的设计,因为它们在流量方面做了几乎相同的事情,并试图将其分类为良性或恶意