Deep learning 什么'；扩张卷积的用途是什么？_Deep Learning

Deep learning 什么'；扩张卷积的用途是什么？

deep-learning

Deep learning 什么'；扩张卷积的用途是什么？,deep-learning,Deep Learning,我指的是一个2x2内核会有漏洞，这样它就会变成一个3x3内核一个3x3内核会有洞，这样它就会变成5x5内核当然，以上假设间隔为1 我可以清楚地看到，这允许您有效地使用4个参数，但接收范围为3x3，9个参数，但接收范围为5x5 扩大卷积的情况是否只是为了节省参数，同时获得更大的感受野的好处，从而节省内存和计算？除了您已经提到的好处，例如更大的感受野，高效计算和较小的内存消耗，扩展的因果卷积还具有以下优点：它在输出层保留数据的分辨率/维度。这是因为层被扩展而不是池，因此被称为扩展因果卷

我指的是

一个2x2内核会有漏洞，这样它就会变成一个3x3内核
一个3x3内核会有洞，这样它就会变成5x5内核
当然，以上假设间隔为1

我可以清楚地看到，这允许您有效地使用4个参数，但接收范围为3x3，9个参数，但接收范围为5x5

扩大卷积的情况是否只是为了节省参数，同时获得更大的感受野的好处，从而节省内存和计算？

除了您已经提到的好处，例如更大的感受野，高效计算和较小的内存消耗，扩展的因果卷积还具有以下优点：

它在输出层保留数据的分辨率/维度。这是因为层被扩展而不是池，因此被称为扩展因果卷积
它维护数据的顺序。例如，在一维扩展因果卷积中，当输出预测取决于先前的输入时，卷积结构有助于维持数据的顺序

我建议你们阅读这篇惊人的论文，它将扩展的因果卷积应用于原始音频波形，以生成语音、音乐，甚至从原始音频波形识别语音

我希望这个答案对您有所帮助。

TLDR

扩展的卷积通常会提高性能（请参见中的“更好的语义分段结果”）

更重要的一点是，该体系结构基于这样一个事实，即扩张的卷积支持感受野的指数扩展，而不会丢失分辨率或覆盖范围

允许一个人拥有更大的感受野，具有相同的计算和存储成本，同时保持分辨率

池化和步进卷积是相似的概念，但两者都降低分辨率 @Rahul引用了2.1扩展的因果卷积，非常简洁。同样值得一看的是，我在这里将其进一步细分：

图（a）是一个1-放大的3x3卷积滤波器。换句话说，它是一个标准的3x3卷积滤波器

图（b）是一个2倍放大的3x3卷积滤波器。红点表示权重所在的位置，其他位置均为0。换句话说，它是一个5x5卷积滤波器，有9个非零权重，其他地方为0，如问题中所述。这种情况下的感受野为7x7，因为之前输出中的每个单元的感受野为3x3。蓝色突出显示的部分显示感受野，非卷积滤波器（如果您愿意，您可以将其视为卷积滤波器，但它没有帮助）

图（c）是一个4倍放大的3x3卷积滤波器。这是一个9x9卷积滤波器，具有9个非零权重，其他地方为0。从（b）中，我们可以看到每个单元现在都有一个7x7的感受野，因此你可以在每个红点周围看到一个7x7的蓝色部分

为了得出明显的对比，考虑一下：

如果我们使用3层连续的3x3卷积滤波器，步长为1，则有效接收野在其末端仅为7x7。然而，在相同的计算和内存成本下，我们可以通过扩展卷积实现15x15。这两种操作都保持分辨率

如果我们使用3层连续的3x3卷积滤波器，以指数速率递增步幅，与本文中的放大卷积速率完全相同，我们将在其末端获得一个15x15的感受野，但随着步幅变大，最终会失去覆盖。这种覆盖范围的丧失意味着，在某一点上的有效感受野将不是我们上面看到的。有些部分不会重叠

Hi Jsschin，我可以看到扩张的卷积可以覆盖更大的区域。然而，在放大卷积滤波器中，许多像素对应于0权重。换句话说，这些像素即使属于感受野也不参与。因此，有效感受野仍然是相同的。我不确定我的理解是否正确。经过3x3卷积后，每个激活连接到一个3x3区域。如果我们同意这一点，那么通过间隔下一个卷积滤波器，我们有效地扩展了感受野，尽管是零。如果你把它拔出来会有帮助的。上面的图表也很好地描述了它。@jkschin你介意详细说明一下扩张卷积是如何保持分辨率的吗？（实际上我是在问这个问题。）@jkschin有人能解释一下图1（b）的感受野是如何为7x7的吗？@cherryaldi举个数字例子会有所帮助。创建一个3x3内核，并将系数放置在图1（b）中的红点处。将零放在元素之间，这样就有了一个5 x 5的内核，其中零在元素之间。创建一个较大的图像（例如7 x 7），并在中心插入随机的3 x 3值。对这个图像和这个3x3内核进行卷积，最终结果会有效地为您提供7x7的输出。这篇文章帮助了我：