Computer vision 为什么在CNN的图像识别任务中,过滤器总是选择非常本地化?

Computer vision 为什么在CNN的图像识别任务中,过滤器总是选择非常本地化?,computer-vision,conv-neural-network,image-preprocessing,Computer Vision,Conv Neural Network,Image Preprocessing,在CNN中,滤波器通常在空间上设置为3x3、5x5。大小是否可以与图像大小相比较?一个原因是减少了要学习的参数数量。除此之外,还有其他重要原因吗?例如,人们想先检测边缘?您回答了问题的一个要点。另一个原因是,大多数有用的特征可能在图像中的多个位置找到。因此,在整个图像上滑动单个内核是有意义的,希望使用同一内核在图像的不同部分提取该特征。如果您使用的是大内核,那么这些特性可能是交错的,而不是具体检测到的 除了你自己的答案,减少计算成本也是一个关键点。由于我们对图像中的不同像素集使用相同的内核,因此

在CNN中,滤波器通常在空间上设置为3x3、5x5。大小是否可以与图像大小相比较?一个原因是减少了要学习的参数数量。除此之外,还有其他重要原因吗?例如,人们想先检测边缘?

您回答了问题的一个要点。另一个原因是,大多数有用的特征可能在图像中的多个位置找到。因此,在整个图像上滑动单个内核是有意义的,希望使用同一内核在图像的不同部分提取该特征。如果您使用的是大内核,那么这些特性可能是交错的,而不是具体检测到的


除了你自己的答案,减少计算成本也是一个关键点。由于我们对图像中的不同像素集使用相同的内核,因此在对这些像素集进行卷积时,在这些像素集之间共享相同的权重。由于权重的数量少于一个完全连接的层,因此我们有较少的权重可以反向传播。

谢谢您的回答,我非常感谢。据我所知,图像域中的扫描来自于这样一个事实,拉普拉斯算子在网格上是圆形的。我不理解本地化部分,这个设计有什么理论支持吗?或者事实上,根据人类的经验,正如你所说,如果使用一个大内核,这些特性可能是交错的,而不是具体检测到的。实际上我并没有像那样深入钻研,所以我不能故意回答你的问题。也许有数学上的解释,但我认为这个想法是非常直观的,并且得到了人类经验的支持。无论如何,你的问题完全超出了这个话题的范围。因为你可以问另一个关于本地化部分的问题,因为其他人可以看到并给你答案,我认为如果你的问题得到了满足,你可以结束它。