Python 比较PCAP数据集

Python 比较PCAP数据集,python,machine-learning,data-science,Python,Machine Learning,Data Science,我在提出比较两个PCAP文件的最佳方法时遇到了一些问题 所以我有两个PCAP,第一个是已知的坏应用程序。第二个是未知的应用程序。我想做的是使用某种形式的机器学习(通过python)技术来比较它们,这会告诉我它们有多相似。也许有一定的相似性。也许可以这样说,PCAP_2与PCAP_1有70%的相似性。或者一个我可以看到PCAP_2位于PCAP_1顶部的图,以及任何异常值 我已经能够使用一个工具,从PCAP中提取大约70个特征,并生成一个CSV文件。对于第一个PCAP(邪恶的PCAP),它是一个CS

我在提出比较两个PCAP文件的最佳方法时遇到了一些问题

所以我有两个PCAP,第一个是已知的坏应用程序。第二个是未知的应用程序。我想做的是使用某种形式的机器学习(通过python)技术来比较它们,这会告诉我它们有多相似。也许有一定的相似性。也许可以这样说,PCAP_2与PCAP_1有70%的相似性。或者一个我可以看到PCAP_2位于PCAP_1顶部的图,以及任何异常值

我已经能够使用一个工具,从PCAP中提取大约70个特征,并生成一个CSV文件。对于第一个PCAP(邪恶的PCAP),它是一个CSV,有70列(特征)和大约200K行(PCAP中的流)。第二个PCAP大约有2.5万行

到目前为止,我已经将CSV输入到熊猫数据帧中,对数据进行了一些处理,对其进行了规范化,并使用StandardScaler对其进行了缩放。一切似乎都很顺利。我的第一个想法是只绘制它们,所以我通过T-SNE和PCA(分别)运行邪恶的PCAP,得到一个2D数组来绘制。使用T-SNE得到的只是一个大的圆形斑点,而PCA似乎做得更好,但只是绘制线条的绘图。我觉得我做错了什么


有没有更好的方法来解决这个问题?也许给PCAP_1贴上一个标签,称之为邪恶,然后通过一个受监管的模型运行它?哪一个最适合这个?任何帮助都将不胜感激。

Stack Overflow的格式非常适合于狭义的具体问题,特别是关于战术(vs战略)编程问题;开放式问题显然超出了我们的关注范围。堆栈交换网络中还有其他一些站点更侧重于数据科学,并且可能没有那么严格的主题性规则。特别是,有关在SO和我们的姐妹站点之间做出决定的指南,请参见。这是另一个具有相关指导意义的问题。