Machine learning 卷积神经网络：Aren'；中央神经元在输出中是否过度代表？_Machine Learning_Neural Network_Convolution

Machine learning 卷积神经网络：Aren'；中央神经元在输出中是否过度代表？

machine-learning neural-network

Machine learning 卷积神经网络：Aren'；中央神经元在输出中是否过度代表？,machine-learning,neural-network,convolution,Machine Learning,Neural Network,Convolution,[这个问题现在也在会议上提出简言之，这个问题我正在研究卷积神经网络，我相信这些网络并不是对每个输入神经元（像素/参数）都一视同仁。想象一下，我们有一个深层网络（多层），它对一些输入图像应用卷积。神经元在“中间”图像对许多深层神经元有许多独特的通路，这意味着中间神经元的微小变化对输出有很强的影响。然而，图像边缘的神经元只有1种方式（或者，取决于精确的执行顺序为1）。他们的信息在图表中流动的路径。似乎这些路径“代表不足” 我很担心这一点，因为边缘神经元的区分随着网络的深度（层数）呈指数级增长。即

[这个问题现在也在会议上提出

简言之，这个问题我正在研究卷积神经网络，我相信这些网络并不是对每个输入神经元（像素/参数）都一视同仁。想象一下，我们有一个深层网络（多层），它对一些输入图像应用卷积。神经元在“中间”图像对许多深层神经元有许多独特的通路，这意味着中间神经元的微小变化对输出有很强的影响。然而，图像边缘的神经元只有1种方式（或者，取决于精确的执行顺序为1）。他们的信息在图表中流动的路径。似乎这些路径“代表不足”

我很担心这一点，因为边缘神经元的区分随着网络的深度（层数）呈指数级增长。即使添加最大池层也不会阻止指数级增长，只有完全连接才能使所有神经元处于平等的地位。不过，我不相信我的推理是正确的，所以我的问题是：

这种效应发生在深卷积网络中，我说得对吗
关于这一点有什么理论吗？文献中有没有提到过
有没有办法克服这种影响

因为我不确定这是否提供了足够的信息，所以我将进一步阐述问题陈述，以及为什么我认为这是一个问题

更详细的解释假设我们有一个以图像为输入的深层神经网络。假设我们在图像上应用一个64x64像素的卷积滤波器，我们每次将卷积窗口移动4像素。这意味着输入中的每个神经元将其激活发送到第2层的16x16=265个神经元。这些神经元中的每一个都可能发送其激活n到另一个265，这样我们最顶端的神经元在265^2个输出神经元中表示，依此类推。然而，对于边缘的神经元来说，情况并非如此：这些神经元可能只在少量卷积窗口中表示，从而导致它们被激活（数量级）下一层只有1个神经元。使用像沿边缘镜像这样的技巧不会有帮助：投射到第二层的神经元仍然位于边缘，这意味着第二层神经元的代表性不足（从而限制了我们边缘神经元的重要性）.可以看出，这种差异随着层数的增加而呈指数增长

我已经创建了一个图像来可视化这个问题，可以在这里找到（我不允许在帖子中包含图像本身）。这个网络有一个3大小的卷积窗口。神经元旁边的数字表示到达最深神经元的路径数。这张图像让人想起

为什么这是一个问题？乍一看，这种影响似乎不是问题：原则上，权重应该自动调整，以使网络发挥作用。此外，图像的边缘在图像识别中并不那么重要。这种影响在日常图像识别测试中可能不明显，但我仍然担心，因为有两个原因：1）推广到其他应用，2）在非常深的网络情况下出现的问题。 1）可能还有其他的应用，比如语音或声音识别，其中最中间的神经元不是最重要的。应用卷积通常在这个领域进行，但我还没有找到任何论文提到我所关心的效果。

2）非常深的网络会注意到边界神经元辨别的指数级不良影响，这意味着中枢神经元可能会被多个数量级的过度代表（假设我们有10层，上面的例子将给出265^10种中枢神经元投射信息的方式）。随着层数的增加，必然会达到一个极限，权重无法切实补偿这种影响。现在想象一下，我们对所有神经元进行少量扰动。与边缘神经元相比，中央神经元将导致输出发生几个数量级的更大变化。我相信对于一般应用，对于非常深入的网络，应该找到解决我问题的方法？

我将引用你的句子，下面我将写下我的答案

这种效应发生在深卷积网络中，对吗
- 我认为你大体上是错的，但根据64×64大小的卷积滤波器示例，你是对的。当你构造卷积层滤波器大小时，它们永远不会大于你在图像中寻找的大小。换句话说，如果你的图像是200by200，你卷积64by64面片，你说这些64by64面片64个补丁将学习一些部分，或者确切地说是识别您的类别的图像补丁。第一层的想法是学习像边缘一样的部分重要图像，而不是整个猫或汽车本身
有没有关于这方面的理论，文献中有没有提到过？有没有克服这种影响的方法
- 到目前为止，我从未在我看过的任何一篇论文中看到过这一点。我认为，即使对于非常深入的网络来说，这也不是一个问题
- 没有这种效果。假设您的第一层学习了64by64个补丁正在运行。如果在最左上角有一个补丁将被触发（激活），那么它将在最左上角的下一层显示为1，因此信息将通过网络传播
（未引用）你不应该认为“当像素接近中心时，它在更多的神经元中是有用的”。想想64x64滤波器，步幅为4：
- 如果64x64过滤器查找的图案为