Machine learning 卷积神经网络:Aren';中央神经元在输出中是否过度代表?

Machine learning 卷积神经网络:Aren';中央神经元在输出中是否过度代表?,machine-learning,neural-network,convolution,Machine Learning,Neural Network,Convolution,[这个问题现在也在会议上提出 简言之,这个问题 我正在研究卷积神经网络,我相信这些网络并不是对每个输入神经元(像素/参数)都一视同仁。想象一下,我们有一个深层网络(多层),它对一些输入图像应用卷积。神经元在“中间”图像对许多深层神经元有许多独特的通路,这意味着中间神经元的微小变化对输出有很强的影响。然而,图像边缘的神经元只有1种方式(或者,取决于精确的执行顺序为1)。他们的信息在图表中流动的路径。似乎这些路径“代表不足” 我很担心这一点,因为边缘神经元的区分随着网络的深度(层数)呈指数级增长。即

[这个问题现在也在会议上提出

简言之,这个问题 我正在研究卷积神经网络,我相信这些网络并不是对每个输入神经元(像素/参数)都一视同仁。想象一下,我们有一个深层网络(多层),它对一些输入图像应用卷积。神经元在“中间”图像对许多深层神经元有许多独特的通路,这意味着中间神经元的微小变化对输出有很强的影响。然而,图像边缘的神经元只有1种方式(或者,取决于精确的执行顺序为1)。他们的信息在图表中流动的路径。似乎这些路径“代表不足”

我很担心这一点,因为边缘神经元的区分随着网络的深度(层数)呈指数级增长。即使添加最大池层也不会阻止指数级增长,只有完全连接才能使所有神经元处于平等的地位。不过,我不相信我的推理是正确的,所以我的问题是:

  • 这种效应发生在深卷积网络中,我说得对吗
  • 关于这一点有什么理论吗?文献中有没有提到过
  • 有没有办法克服这种影响
因为我不确定这是否提供了足够的信息,所以我将进一步阐述问题陈述,以及为什么我认为这是一个问题

更详细的解释 假设我们有一个以图像为输入的深层神经网络。假设我们在图像上应用一个64x64像素的卷积滤波器,我们每次将卷积窗口移动4像素。这意味着输入中的每个神经元将其激活发送到第2层的16x16=265个神经元。这些神经元中的每一个都可能发送其激活n到另一个265,这样我们最顶端的神经元在265^2个输出神经元中表示,依此类推。然而,对于边缘的神经元来说,情况并非如此:这些神经元可能只在少量卷积窗口中表示,从而导致它们被激活(数量级)下一层只有1个神经元。使用像沿边缘镜像这样的技巧不会有帮助:投射到第二层的神经元仍然位于边缘,这意味着第二层神经元的代表性不足(从而限制了我们边缘神经元的重要性).可以看出,这种差异随着层数的增加而呈指数增长

我已经创建了一个图像来可视化这个问题,可以在这里找到(我不允许在帖子中包含图像本身)。这个网络有一个3大小的卷积窗口。神经元旁边的数字表示到达最深神经元的路径数。这张图像让人想起

为什么这是一个问题? 乍一看,这种影响似乎不是问题:原则上,权重应该自动调整,以使网络发挥作用。此外,图像的边缘在图像识别中并不那么重要。这种影响在日常图像识别测试中可能不明显,但我仍然担心,因为有两个原因:1)推广到其他应用,2)在非常深的网络情况下出现的问题。 1) 可能还有其他的应用,比如语音或声音识别,其中最中间的神经元不是最重要的。应用卷积通常在这个领域进行,但我还没有找到任何论文提到我所关心的效果。
2) 非常深的网络会注意到边界神经元辨别的指数级不良影响,这意味着中枢神经元可能会被多个数量级的过度代表(假设我们有10层,上面的例子将给出265^10种中枢神经元投射信息的方式)。随着层数的增加,必然会达到一个极限,权重无法切实补偿这种影响。现在想象一下,我们对所有神经元进行少量扰动。与边缘神经元相比,中央神经元将导致输出发生几个数量级的更大变化。我相信对于一般应用,对于非常深入的网络,应该找到解决我问题的方法?

我将引用你的句子,下面我将写下我的答案

  • 这种效应发生在深卷积网络中,对吗

    • 我认为你大体上是错的,但根据64×64大小的卷积滤波器示例,你是对的。当你构造卷积层滤波器大小时,它们永远不会大于你在图像中寻找的大小。换句话说,如果你的图像是200by200,你卷积64by64面片,你说这些64by64面片64个补丁将学习一些部分,或者确切地说是识别您的类别的图像补丁。第一层的想法是学习像边缘一样的部分重要图像,而不是整个猫或汽车本身
  • 有没有关于这方面的理论,文献中有没有提到过?有没有克服这种影响的方法

    • 到目前为止,我从未在我看过的任何一篇论文中看到过这一点。我认为,即使对于非常深入的网络来说,这也不是一个问题

    • 没有这种效果。假设您的第一层学习了64by64个补丁正在运行。如果在最左上角有一个补丁将被触发(激活),那么它将在最左上角的下一层显示为1,因此信息将通过网络传播

  • (未引用)你不应该认为“当像素接近中心时,它在更多的神经元中是有用的”。想想64x64滤波器,步幅为4:

    • 如果64x64过滤器查找的图案为