Python 比较PCAP数据集_Python_Machine Learning_Data Science

Python 比较PCAP数据集

python machine-learning

Python 比较PCAP数据集,python,machine-learning,data-science,Python,Machine Learning,Data Science,我在提出比较两个PCAP文件的最佳方法时遇到了一些问题所以我有两个PCAP，第一个是已知的坏应用程序。第二个是未知的应用程序。我想做的是使用某种形式的机器学习（通过python）技术来比较它们，这会告诉我它们有多相似。也许有一定的相似性。也许可以这样说，PCAP_2与PCAP_1有70%的相似性。或者一个我可以看到PCAP_2位于PCAP_1顶部的图，以及任何异常值我已经能够使用一个工具，从PCAP中提取大约70个特征，并生成一个CSV文件。对于第一个PCAP（邪恶的PCAP），它是一个CS

我在提出比较两个PCAP文件的最佳方法时遇到了一些问题

所以我有两个PCAP，第一个是已知的坏应用程序。第二个是未知的应用程序。我想做的是使用某种形式的机器学习（通过python）技术来比较它们，这会告诉我它们有多相似。也许有一定的相似性。也许可以这样说，PCAP_2与PCAP_1有70%的相似性。或者一个我可以看到PCAP_2位于PCAP_1顶部的图，以及任何异常值

我已经能够使用一个工具，从PCAP中提取大约70个特征，并生成一个CSV文件。对于第一个PCAP（邪恶的PCAP），它是一个CSV，有70列（特征）和大约200K行（PCAP中的流）。第二个PCAP大约有2.5万行

到目前为止，我已经将CSV输入到熊猫数据帧中，对数据进行了一些处理，对其进行了规范化，并使用StandardScaler对其进行了缩放。一切似乎都很顺利。我的第一个想法是只绘制它们，所以我通过T-SNE和PCA（分别）运行邪恶的PCAP，得到一个2D数组来绘制。使用T-SNE得到的只是一个大的圆形斑点，而PCA似乎做得更好，但只是绘制线条的绘图。我觉得我做错了什么

有没有更好的方法来解决这个问题？也许给PCAP_1贴上一个标签，称之为邪恶，然后通过一个受监管的模型运行它？哪一个最适合这个？任何帮助都将不胜感激。

Stack Overflow的格式非常适合于狭义的具体问题，特别是关于战术（vs战略）编程问题；开放式问题显然超出了我们的关注范围。堆栈交换网络中还有其他一些站点更侧重于数据科学，并且可能没有那么严格的主题性规则。特别是，有关在SO和我们的姐妹站点之间做出决定的指南，请参见。这是另一个具有相关指导意义的问题。