Computer vision 为什么在CNN的图像识别任务中，过滤器总是选择非常本地化？_Computer Vision_Conv Neural Network_Image Preprocessing

Computer vision 为什么在CNN的图像识别任务中，过滤器总是选择非常本地化？

computer-vision

Computer vision 为什么在CNN的图像识别任务中，过滤器总是选择非常本地化？,computer-vision,conv-neural-network,image-preprocessing,Computer Vision,Conv Neural Network,Image Preprocessing,在CNN中，滤波器通常在空间上设置为3x3、5x5。大小是否可以与图像大小相比较？一个原因是减少了要学习的参数数量。除此之外，还有其他重要原因吗？例如，人们想先检测边缘？您回答了问题的一个要点。另一个原因是，大多数有用的特征可能在图像中的多个位置找到。因此，在整个图像上滑动单个内核是有意义的，希望使用同一内核在图像的不同部分提取该特征。如果您使用的是大内核，那么这些特性可能是交错的，而不是具体检测到的除了你自己的答案，减少计算成本也是一个关键点。由于我们对图像中的不同像素集使用相同的内核，因此

在CNN中，滤波器通常在空间上设置为3x3、5x5。大小是否可以与图像大小相比较？一个原因是减少了要学习的参数数量。除此之外，还有其他重要原因吗？例如，人们想先检测边缘？

您回答了问题的一个要点。另一个原因是，大多数有用的特征可能在图像中的多个位置找到。因此，在整个图像上滑动单个内核是有意义的，希望使用同一内核在图像的不同部分提取该特征。如果您使用的是大内核，那么这些特性可能是交错的，而不是具体检测到的

除了你自己的答案，减少计算成本也是一个关键点。由于我们对图像中的不同像素集使用相同的内核，因此在对这些像素集进行卷积时，在这些像素集之间共享相同的权重。由于权重的数量少于一个完全连接的层，因此我们有较少的权重可以反向传播。

谢谢您的回答，我非常感谢。据我所知，图像域中的扫描来自于这样一个事实，拉普拉斯算子在网格上是圆形的。我不理解本地化部分，这个设计有什么理论支持吗？或者事实上，根据人类的经验，正如你所说，如果使用一个大内核，这些特性可能是交错的，而不是具体检测到的。实际上我并没有像那样深入钻研，所以我不能故意回答你的问题。也许有数学上的解释，但我认为这个想法是非常直观的，并且得到了人类经验的支持。无论如何，你的问题完全超出了这个话题的范围。因为你可以问另一个关于本地化部分的问题，因为其他人可以看到并给你答案，我认为如果你的问题得到了满足，你可以结束它。