Machine learning 实例规范化与批处理规范化

Machine learning 实例规范化与批处理规范化,machine-learning,neural-network,computer-vision,conv-neural-network,batch-normalization,Machine Learning,Neural Network,Computer Vision,Conv Neural Network,Batch Normalization,我知道批量归一化有助于加快训练速度,因为它将激活转换为单位高斯分布,从而解决了消失梯度问题。在培训(使用每个批次的平均值/var)和测试时间(使用培训阶段的最终运行平均值/var)时,批次定额acts的应用不同 另一方面,实例归一化作为本文中提到的对比度归一化。作者提到,输出样式化的图像不应依赖于输入内容图像的对比度,因此实例规范化有助于实现 但是,如果类别标签不应该依赖于输入图像的对比度,那么我们不应该也使用实例归一化进行图像分类。我没有看到任何论文使用实例规范化代替批量规范化进行分类。原因是

我知道批量归一化有助于加快训练速度,因为它将激活转换为单位高斯分布,从而解决了消失梯度问题。在培训(使用每个批次的平均值/var)和测试时间(使用培训阶段的最终运行平均值/var)时,批次定额acts的应用不同

另一方面,实例归一化作为本文中提到的对比度归一化。作者提到,输出样式化的图像不应依赖于输入内容图像的对比度,因此实例规范化有助于实现

但是,如果类别标签不应该依赖于输入图像的对比度,那么我们不应该也使用实例归一化进行图像分类。我没有看到任何论文使用实例规范化代替批量规范化进行分类。原因是什么?此外,批处理和实例规范化可以也应该一起使用。我渴望从直觉和理论上理解何时使用哪种标准化

定义 让我们从两个方面的严格定义开始:

批量标准化

实例规范化

正如您所注意到的,除了联合归一化的输入张量的数量之外,它们正在做相同的事情。批处理版本规范化批处理和空间位置上的所有图像(在CNN情况下,在普通情况下);实例版本独立地规范化批处理的每个元素,即仅跨空间位置

换句话说,批处理范数计算一个均值和标准偏差(从而使整个层的分布为高斯分布),实例范数计算其中的
T
,使每个单独的图像分布看起来为高斯分布,但不是联合分布

一个简单的类比:在数据预处理步骤中,可以基于每个图像对数据进行规格化,或者对整个数据集进行规格化

信用证:公式来自

哪个标准化更好? 答案取决于网络体系结构,特别是在标准化层之后要做什么。图像分类网络通常将特征图堆叠在一起,并将它们连接到FC层,FC层在批次中共享权重(现代方法是使用CONV层而不是FC,但该论点仍然适用)

这就是分布细微差别开始起作用的地方:同一个神经元将接收来自所有图像的输入。如果批次间的差异较大,则小激活的梯度将被高激活完全抑制,这正是批次规范试图解决的问题。这就是为什么每个实例的规范化很可能根本无法改善网络融合的原因

另一方面,批处理规范化为训练添加了额外的噪声,因为特定实例的结果取决于相邻实例。事实证明,这种噪声对网络可能是好的,也可能是坏的。这在Tim Salimans等人的论文中得到了很好的解释,该论文将递归神经网络和强化学习DQN称为噪声敏感应用。我不完全确定,但我认为相同的噪音敏感性是风格化任务中的主要问题,norm试图与之抗争。这将是有趣的检查,如果重量标准执行更好的这一特定任务

您可以将批处理和实例规范化结合起来吗?
虽然它是一个有效的神经网络,但它没有实际用途。批处理规范化噪声要么有助于学习过程(在本例中,最好是这样),要么有损于学习过程(在本例中,最好忽略它)。在这两种情况下,只对网络进行一种规格化可能会提高性能。

这是一个很好的问题,已经很好地回答了。只是想补充一句:我发现这张来自何开明的团体规范论文的可视化图很有帮助


资料来源:

我想为这个问题补充更多信息,因为在这个领域有一些较新的作品。你的直觉

使用实例归一化进行图像分类,其中类标签 不应依赖于输入图像的对比度

这部分是正确的。我想说,在光天化日之下拍摄的猪在夜晚或黎明时仍然是猪。然而,这并不意味着在网络上使用实例规范化将获得更好的结果。以下是一些原因:

  • 颜色分布仍然起作用。如果它有很多红色的话,它更可能是一个苹果而不是一个橘子
  • 在以后的层中,您不能再想象实例规范化充当对比度规范化。特定于类的细节将出现在更深的层中,通过实例对它们进行规范化将极大地损害模型的性能
  • 在模型中同时使用批处理规范化和实例规范化。他们只将实例规范化放在早期层中,并且在准确性和泛化能力方面都取得了改进。他们有开源代码


    在中提供不同的视觉和外观,BN加速训练并保留鉴别特征。
    浅层(CNN的起始层)首选IN,因此应减少外观变化,深层(最后一层CNN)首选BN,以保持区分。

    您说“在CNN中,它不同”,但这里提供的公式是CNN的公式。在标准批规格化中,元素仅在批维度上规格化。在这里的CNN案例中,元素在批处理和空间维度上被规范化。您链接到的答案正确地解释了这一点。我想补充一点,最近发表的一篇论文建议使用一个将不同规范化与可学习参数相结合的层。所以要让网络“决定”,哪种规范化要考虑“可微李尔”