Deep learning 使用未标记数据集的自动编码器异常检测(如何构造输入数据)

Deep learning 使用未标记数据集的自动编码器异常检测(如何构造输入数据),deep-learning,autoencoder,unsupervised-learning,anomaly-detection,Deep Learning,Autoencoder,Unsupervised Learning,Anomaly Detection,我是深度学习领域的新手,我想问一下使用自动编码器进行异常检测的未标记数据集。我的困惑部分从以下几个问题开始: 1) 一些帖子说,从原始数据集中分离出异常和非异常(假设已标记),并用唯一的非异常数据集训练AE(通常非异常量将更占优势)。所以,问题是如果数据集未标记,我将如何分离数据集 2) 如果我使用原始未标记的数据集进行训练,如何检测异常数据?数据标签不会进入自动编码器 自动编码器由两部分组成 编解码器 Encoder:它对输入数据进行编码,比如说一个包含784个特征到50个特征的样本 解码器:

我是深度学习领域的新手,我想问一下使用自动编码器进行异常检测的未标记数据集。我的困惑部分从以下几个问题开始:

1) 一些帖子说,从原始数据集中分离出异常和非异常(假设已标记),并用唯一的非异常数据集训练AE(通常非异常量将更占优势)。所以,问题是如果数据集未标记,我将如何分离数据集


2) 如果我使用原始未标记的数据集进行训练,如何检测异常数据?

数据标签不会进入自动编码器

自动编码器由两部分组成 编解码器

Encoder
:它对输入数据进行编码,比如说一个包含784个特征到50个特征的样本

解码器
:从这50个功能将其转换回原始功能,即784个功能

现在要检测异常, 如果您传递了一个
未知样本
,则应将其转换回其
原始样本
,而不会有太多
损失
。 但是,如果在将其转换回时出现大量错误。那么它可能是一个异常


了解标签不会作为AE输入。我这里的问题是,假设我有一个数据集,它有一个标签为0和1的列,我知道这是我的标签。因此,在一些post ppl中,我们说将基于标签I的数据集隔离到2集合1与标签0,另一个集合是标签1。通过删除标签列,我们只使用带有AE的标签0数据集(标签已删除)序列。因此,正如你所提到的,看不见的数据(标签1)将具有更高的重建误差。所以,我的疑问是,如果我们使用未标记的数据集,如何分离数据(预处理)?