Deep learning 使用未标记数据集的自动编码器异常检测（如何构造输入数据）_Deep Learning_Autoencoder_Unsupervised Learning_Anomaly Detection

Deep learning 使用未标记数据集的自动编码器异常检测（如何构造输入数据）

deep-learning

Deep learning 使用未标记数据集的自动编码器异常检测（如何构造输入数据）,deep-learning,autoencoder,unsupervised-learning,anomaly-detection,Deep Learning,Autoencoder,Unsupervised Learning,Anomaly Detection,我是深度学习领域的新手，我想问一下使用自动编码器进行异常检测的未标记数据集。我的困惑部分从以下几个问题开始： 1）一些帖子说，从原始数据集中分离出异常和非异常（假设已标记），并用唯一的非异常数据集训练AE（通常非异常量将更占优势）。所以，问题是如果数据集未标记，我将如何分离数据集 2）如果我使用原始未标记的数据集进行训练，如何检测异常数据？数据标签不会进入自动编码器自动编码器由两部分组成编解码器 Encoder：它对输入数据进行编码，比如说一个包含784个特征到50个特征的样本解码器：

我是深度学习领域的新手，我想问一下使用自动编码器进行异常检测的未标记数据集。我的困惑部分从以下几个问题开始：

1）一些帖子说，从原始数据集中分离出异常和非异常（假设已标记），并用唯一的非异常数据集训练AE（通常非异常量将更占优势）。所以，问题是如果数据集未标记，我将如何分离数据集

2）如果我使用原始未标记的数据集进行训练，如何检测异常数据？

数据标签不会进入自动编码器

自动编码器由两部分组成编解码器

Encoder

：它对输入数据进行编码，比如说一个包含784个特征到50个特征的样本

解码器

：从这50个功能将其转换回原始功能，即784个功能

现在要检测异常，如果您传递了一个

未知样本

，则应将其转换回其

原始样本

，而不会有太多

损失

。但是，如果在将其转换回时出现大量错误。那么它可能是一个异常

了解标签不会作为AE输入。我这里的问题是，假设我有一个数据集，它有一个标签为0和1的列，我知道这是我的标签。因此，在一些post ppl中，我们说将基于标签I的数据集隔离到2集合1与标签0，另一个集合是标签1。通过删除标签列，我们只使用带有AE的标签0数据集（标签已删除）序列。因此，正如你所提到的，看不见的数据（标签1）将具有更高的重建误差。所以，我的疑问是，如果我们使用未标记的数据集，如何分离数据（预处理）？