Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/image-processing/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Image processing 关于max pooling?_Image Processing_Deep Learning_Conv Neural Network_Max Pooling - Fatal编程技术网

Image processing 关于max pooling?

Image processing 关于max pooling?,image-processing,deep-learning,conv-neural-network,max-pooling,Image Processing,Deep Learning,Conv Neural Network,Max Pooling,最大池在vision中很有用,原因有两个: 通过消除非最大值,它减少了上限的计算 层次 它提供了一种形式的平移不变性。想象一下级联一个 最大池层与卷积层。有8个方向 其中,可以将输入图像平移一个像素。如果 最大池是在2x2区域上完成的,这8个区域中有3个是可能的 配置将在同一时间产生完全相同的输出 卷积层。对于3x3窗口上的最大池,这跳到 5/8 由于它为定位提供了额外的健壮性,所以最大池是一种 降低中间层维度的“智能”方法 陈述 我不明白,8个方向是什么意思?这是什么 “如果在2x2区域上执行

最大池在vision中很有用,原因有两个:

通过消除非最大值,它减少了上限的计算 层次

它提供了一种形式的平移不变性。想象一下级联一个 最大池层与卷积层。有8个方向 其中,可以将输入图像平移一个像素。如果 最大池是在2x2区域上完成的,这8个区域中有3个是可能的 配置将在同一时间产生完全相同的输出 卷积层。对于3x3窗口上的最大池,这跳到 5/8

由于它为定位提供了额外的健壮性,所以最大池是一种 降低中间层维度的“智能”方法 陈述

我不明白,8个方向是什么意思?这是什么

“如果在2x2区域上执行最大池,则这8个区域中可能有3个是最大池 配置将在同一时间产生完全相同的输出 卷积层。对于3x3窗口上的最大池,这跳到 5/8。”

什么意思

有8个方向可以将输入图像平移一个像素

他们考虑2个水平、2个垂直和4个对角线1像素位移。总共有8个

如果在2x2区域上执行最大池,那么这8种可能配置中的3种将在卷积层产生完全相同的输出。对于3x3窗口上的最大池,这跳到5/8

假设我们在图像的2x2区域中取最大值。图像是预卷积的,尽管对于本解释而言这并不重要

无论最大值在2x2区域中的确切位置,都会有3种可能的图像1像素平移,从而在该特定2x2区域中保留最大值。当然,邻近地区可能带来更大的价值,但这与问题无关。关键是你得到了一些平移不变性


对于3x3区域,它变得更加复杂,因为将最大值保持在区域内的1像素平移的数量取决于最大值所在区域的确切位置。他们提到的5个翻译对应于在3x3像素块中的边缘中间的位置。一个角位置将给出3个平移,而中心位置将给出全部8个平移。

我不理解合并和平移不变性之间的关系?你能解释一下吗?“将有3种可能的图像1像素平移,从而在该特定2x2区域中保留最大值”,哪3种可能的1像素平移?那么1像素平移意味着什么?@高斯假设2x2区域的最大值在坐标(1,1)处。然后,图像平移(-1,-1)将该特定值移动到位置(0,0),该位置仍在2x2区域内。在2x2区域内保留最大值的其他两个平移是(0,-1)和(-1,0)。(-1,-1),(-1,0),(0,-1)是什么意思?四个像素(0,0),(0,1),(1,0),(1,1)合并成(1,1)——2*2区域的最大值??高斯这些是平移向量<代码>新位置=旧位置+平移向量。在我的例子中,
(0,0)=(1,1)+(-1,-1)
。我仍然不明白。四个像素合并成一个像素,你说的“保持区域内最大值的1像素平移”是什么意思?平移后,没有上一个区域。对于3×3个区域,我不能理解“他们提到的5个翻译对应于一个3x3像素块中的一个边缘中的一个位置。一个拐角位置将给出3个翻译,而中心一个将给出所有8个。”可能我不明白你的意思是关于1个像素的翻译。