Machine learning 在大数据集上训练异常检测模型并选择正确的模型_Machine Learning_Scikit Learn_Svm_Anomaly Detection_Pycaret

Machine learning 在大数据集上训练异常检测模型并选择正确的模型

machine-learning scikit-learn

Machine learning 在大数据集上训练异常检测模型并选择正确的模型,machine-learning,scikit-learn,svm,anomaly-detection,pycaret,Machine Learning,Scikit Learn,Svm,Anomaly Detection,Pycaret,我们正在尝试为应用程序日志构建异常检测模型预处理已经完成，我们已经构建了自己的word2vec模型，该模型是根据应用程序日志条目进行训练的现在我们有一个1.5m行*100列的训练数据其中每行是日志项的矢量化表示，每个矢量的长度为100，因此为100列问题在于，大多数异常检测算法LOF、SOS、SOD、SVM都没有针对这些数据量进行缩放。我们将训练规模减少到500K，但这些算法仍然挂起。SVM在POC样本数据上表现最好，它没有n_作业在多个核上运行的选项一些算法可以完成，如低n_估计的隔

我们正在尝试为应用程序日志构建异常检测模型

预处理已经完成，我们已经构建了自己的word2vec模型，该模型是根据应用程序日志条目进行训练的

现在我们有一个1.5m行*100列的训练数据

其中每行是日志项的矢量化表示，每个矢量的长度为100，因此为100列

问题在于，大多数异常检测算法LOF、SOS、SOD、SVM都没有针对这些数据量进行缩放。我们将训练规模减少到500K，但这些算法仍然挂起。SVM在POC样本数据上表现最好，它没有n_作业在多个核上运行的选项

一些算法可以完成，如低n_估计的隔离林、直方图和聚类。但是这些都不能检测到我们故意放在训练数据中的异常

有人知道我们如何为大型数据集运行异常检测算法吗

在标准异常检测技术中找不到任何批量培训的选项。我们要研究神经网络自动编码器吗

选择最佳型号：

鉴于这是无监督学习，我们选择模型的方法如下：

在日志条目训练数据中，插入小说《魔戒》中的条目。此日志条目的向量表示形式将不同于其他日志条目

在使用各种异常检测算法运行数据集时，查看哪些算法能够检测到来自小说的异常条目

当我们尝试在一个非常小的数据集1000个条目上运行异常检测时，这种方法起到了作用，其中日志文件使用google提供的word2vec模型进行了矢量化

这是一个合理的方法吗？我们也对其他想法持开放态度。鉴于它是一种无监督的学习算法，我们必须输入一个异常条目，看看哪个模型能够识别它

根据您的解释，输入的污染比为0.003，似乎您正在接近一个新颖性检测问题。新颖性检测问题通常是一个半监督问题，例外情况或方法可能有所不同

现在，如果使用批处理，矩阵大小巨大的问题可以解决。这可以帮助你-

最后，是的，如果您可以使用深度学习，那么您的问题可以通过无监督学习或半监督学习以更好的方式解决。我建议您这样做。

看看您是否可以在这里找到一些东西-您的150万数据点的时间窗有多长？你确定把所有这些都合并起来是有意义的吗。有时最好只保存最后一个月的数据，因为正常模式往往会随着时间的推移而改变