Machine learning 在大数据集上训练异常检测模型并选择正确的模型

Machine learning 在大数据集上训练异常检测模型并选择正确的模型,machine-learning,scikit-learn,svm,anomaly-detection,pycaret,Machine Learning,Scikit Learn,Svm,Anomaly Detection,Pycaret,我们正在尝试为应用程序日志构建异常检测模型 预处理已经完成,我们已经构建了自己的word2vec模型,该模型是根据应用程序日志条目进行训练的 现在我们有一个1.5m行*100列的训练数据 其中每行是日志项的矢量化表示,每个矢量的长度为100,因此为100列 问题在于,大多数异常检测算法LOF、SOS、SOD、SVM都没有针对这些数据量进行缩放。我们将训练规模减少到500K,但这些算法仍然挂起。SVM在POC样本数据上表现最好,它没有n_作业在多个核上运行的选项 一些算法可以完成,如低n_估计的隔

我们正在尝试为应用程序日志构建异常检测模型

预处理已经完成,我们已经构建了自己的word2vec模型,该模型是根据应用程序日志条目进行训练的

现在我们有一个1.5m行*100列的训练数据

其中每行是日志项的矢量化表示,每个矢量的长度为100,因此为100列

问题在于,大多数异常检测算法LOF、SOS、SOD、SVM都没有针对这些数据量进行缩放。我们将训练规模减少到500K,但这些算法仍然挂起。SVM在POC样本数据上表现最好,它没有n_作业在多个核上运行的选项

一些算法可以完成,如低n_估计的隔离林、直方图和聚类。但是这些都不能检测到我们故意放在训练数据中的异常

有人知道我们如何为大型数据集运行异常检测算法吗

在标准异常检测技术中找不到任何批量培训的选项。我们要研究神经网络自动编码器吗

选择最佳型号:

鉴于这是无监督学习,我们选择模型的方法如下:

在日志条目训练数据中,插入小说《魔戒》中的条目。此日志条目的向量表示形式将不同于其他日志条目

在使用各种异常检测算法运行数据集时,查看哪些算法能够检测到来自小说的异常条目

当我们尝试在一个非常小的数据集1000个条目上运行异常检测时,这种方法起到了作用,其中日志文件使用google提供的word2vec模型进行了矢量化

这是一个合理的方法吗?我们也对其他想法持开放态度。鉴于它是一种无监督的学习算法,我们必须输入一个异常条目,看看哪个模型能够识别它


根据您的解释,输入的污染比为0.003,似乎您正在接近一个新颖性检测问题。新颖性检测问题通常是一个半监督问题,例外情况或方法可能有所不同

现在,如果使用批处理,矩阵大小巨大的问题可以解决。这可以帮助你-


最后,是的,如果您可以使用深度学习,那么您的问题可以通过无监督学习或半监督学习以更好的方式解决。我建议您这样做。

看看您是否可以在这里找到一些东西-您的150万数据点的时间窗有多长?你确定把所有这些都合并起来是有意义的吗。有时最好只保存最后一个月的数据,因为正常模式往往会随着时间的推移而改变