Deep learning 什么';扩张卷积的用途是什么?

Deep learning 什么';扩张卷积的用途是什么?,deep-learning,Deep Learning,我指的是 一个2x2内核会有漏洞,这样它就会变成一个3x3内核 一个3x3内核会有洞,这样它就会变成5x5内核 当然,以上假设间隔为1 我可以清楚地看到,这允许您有效地使用4个参数,但接收范围为3x3,9个参数,但接收范围为5x5 扩大卷积的情况是否只是为了节省参数,同时获得更大的感受野的好处,从而节省内存和计算?除了您已经提到的好处,例如更大的感受野,高效计算和较小的内存消耗,扩展的因果卷积还具有以下优点: 它在输出层保留数据的分辨率/维度。这是因为层被扩展而不是池,因此被称为扩展因果卷

我指的是

  • 一个2x2内核会有漏洞,这样它就会变成一个3x3内核
  • 一个3x3内核会有洞,这样它就会变成5x5内核
  • 当然,以上假设间隔为1
我可以清楚地看到,这允许您有效地使用4个参数,但接收范围为3x3,9个参数,但接收范围为5x5


扩大卷积的情况是否只是为了节省参数,同时获得更大的感受野的好处,从而节省内存和计算?

除了您已经提到的好处,例如更大的感受野,高效计算较小的内存消耗,扩展的因果卷积还具有以下优点:

  • 它在输出层保留数据的分辨率/维度。这是因为层被扩展而不是池,因此被称为扩展因果卷积
  • 它维护数据的顺序。例如,在一维扩展因果卷积中,当输出预测取决于先前的输入时,卷积结构有助于维持数据的顺序
我建议你们阅读这篇惊人的论文,它将扩展的因果卷积应用于原始音频波形,以生成语音、音乐,甚至从原始音频波形识别语音

我希望这个答案对您有所帮助。

TLDR

  • 扩展的卷积通常会提高性能(请参见中的“更好的语义分段结果”)
  • 更重要的一点是,该体系结构基于这样一个事实,即扩张的卷积支持感受野的指数扩展,而不会丢失分辨率或覆盖范围

  • 允许一个人拥有更大的感受野,具有相同的计算和存储成本,同时保持分辨率

  • 池化步进卷积是相似的概念,但两者都降低分辨率 @Rahul引用了2.1扩展的因果卷积,非常简洁。同样值得一看的是,我在这里将其进一步细分:

    • 图(a)是一个1-放大的3x3卷积滤波器。换句话说,它是一个标准的3x3卷积滤波器
    • 图(b)是一个2倍放大的3x3卷积滤波器。红点表示权重所在的位置,其他位置均为0。换句话说,它是一个5x5卷积滤波器,有9个非零权重,其他地方为0,如问题中所述。这种情况下的感受野为7x7,因为之前输出中的每个单元的感受野为3x3。蓝色突出显示的部分显示感受野,卷积滤波器(如果您愿意,您可以将其视为卷积滤波器,但它没有帮助)
    • 图(c)是一个4倍放大的3x3卷积滤波器。这是一个9x9卷积滤波器,具有9个非零权重,其他地方为0。从(b)中,我们可以看到每个单元现在都有一个7x7的感受野,因此你可以在每个红点周围看到一个7x7的蓝色部分
    为了得出明显的对比,考虑一下:

    • 如果我们使用3层连续的3x3卷积滤波器,步长为1,则有效接收野在其末端仅为7x7。然而,在相同的计算和内存成本下,我们可以通过扩展卷积实现15x15。这两种操作都保持分辨率
    • 如果我们使用3层连续的3x3卷积滤波器,以指数速率递增步幅,与本文中的放大卷积速率完全相同,我们将在其末端获得一个15x15的感受野,但随着步幅变大,最终会失去覆盖。这种覆盖范围的丧失意味着,在某一点上的有效感受野将不是我们上面看到的。有些部分不会重叠

    Hi Jsschin,我可以看到扩张的卷积可以覆盖更大的区域。然而,在放大卷积滤波器中,许多像素对应于0权重。换句话说,这些像素即使属于感受野也不参与。因此,有效感受野仍然是相同的。我不确定我的理解是否正确。经过3x3卷积后,每个激活连接到一个3x3区域。如果我们同意这一点,那么通过间隔下一个卷积滤波器,我们有效地扩展了感受野,尽管是零。如果你把它拔出来会有帮助的。上面的图表也很好地描述了它。@jkschin你介意详细说明一下扩张卷积是如何保持分辨率的吗?(实际上我是在问这个问题。)@jkschin有人能解释一下图1(b)的感受野是如何为7x7的吗?@cherryaldi举个数字例子会有所帮助。创建一个3x3内核,并将系数放置在图1(b)中的红点处。将零放在元素之间,这样就有了一个5 x 5的内核,其中零在元素之间。创建一个较大的图像(例如7 x 7),并在中心插入随机的3 x 3值。对这个图像和这个3x3内核进行卷积,最终结果会有效地为您提供7x7的输出。这篇文章帮助了我: