Image processing 关于max pooling？_Image Processing_Deep Learning_Conv Neural Network_Max Pooling

Image processing 关于max pooling？

image-processing deep-learning

Image processing 关于max pooling？,image-processing,deep-learning,conv-neural-network,max-pooling,Image Processing,Deep Learning,Conv Neural Network,Max Pooling,最大池在vision中很有用，原因有两个：通过消除非最大值，它减少了上限的计算层次它提供了一种形式的平移不变性。想象一下级联一个最大池层与卷积层。有8个方向其中，可以将输入图像平移一个像素。如果最大池是在2x2区域上完成的，这8个区域中有3个是可能的配置将在同一时间产生完全相同的输出卷积层。对于3x3窗口上的最大池，这跳到 5/8 由于它为定位提供了额外的健壮性，所以最大池是一种降低中间层维度的“智能”方法陈述我不明白，8个方向是什么意思？这是什么 “如果在2x2区域上执行

最大池在vision中很有用，原因有两个：

通过消除非最大值，它减少了上限的计算层次

它提供了一种形式的平移不变性。想象一下级联一个最大池层与卷积层。有8个方向其中，可以将输入图像平移一个像素。如果最大池是在2x2区域上完成的，这8个区域中有3个是可能的配置将在同一时间产生完全相同的输出卷积层。对于3x3窗口上的最大池，这跳到 5/8

由于它为定位提供了额外的健壮性，所以最大池是一种降低中间层维度的“智能”方法陈述

我不明白，8个方向是什么意思？这是什么

“如果在2x2区域上执行最大池，则这8个区域中可能有3个是最大池配置将在同一时间产生完全相同的输出卷积层。对于3x3窗口上的最大池，这跳到 5/8。”

什么意思

有8个方向可以将输入图像平移一个像素

他们考虑2个水平、2个垂直和4个对角线1像素位移。总共有8个

如果在2x2区域上执行最大池，那么这8种可能配置中的3种将在卷积层产生完全相同的输出。对于3x3窗口上的最大池，这跳到5/8

假设我们在图像的2x2区域中取最大值。图像是预卷积的，尽管对于本解释而言这并不重要

无论最大值在2x2区域中的确切位置，都会有3种可能的图像1像素平移，从而在该特定2x2区域中保留最大值。当然，邻近地区可能带来更大的价值，但这与问题无关。关键是你得到了一些平移不变性

对于3x3区域，它变得更加复杂，因为将最大值保持在区域内的1像素平移的数量取决于最大值所在区域的确切位置。他们提到的5个翻译对应于在3x3像素块中的边缘中间的位置。一个角位置将给出3个平移，而中心位置将给出全部8个平移。

我不理解合并和平移不变性之间的关系？你能解释一下吗？“将有3种可能的图像1像素平移，从而在该特定2x2区域中保留最大值”，哪3种可能的1像素平移？那么1像素平移意味着什么？@高斯假设2x2区域的最大值在坐标（1，1）处。然后，图像平移（-1，-1）将该特定值移动到位置（0，0），该位置仍在2x2区域内。在2x2区域内保留最大值的其他两个平移是（0，-1）和（-1,0）。（-1，-1），（-1,0），（0，-1）是什么意思？四个像素（0,0），（0,1），（1,0），（1,1）合并成（1,1）——2*2区域的最大值？？高斯这些是平移向量<代码>新位置=旧位置+平移向量。在我的例子中，

（0，0）=（1，1）+（-1，-1）

。我仍然不明白。四个像素合并成一个像素，你说的“保持区域内最大值的1像素平移”是什么意思？平移后，没有上一个区域。对于3×3个区域，我不能理解“他们提到的5个翻译对应于一个3x3像素块中的一个边缘中的一个位置。一个拐角位置将给出3个翻译，而中心一个将给出所有8个。”可能我不明白你的意思是关于1个像素的翻译。