Deep learning 深度学习-特征金字塔网络-如何理解下采样符号?

Deep learning 深度学习-特征金字塔网络-如何理解下采样符号?,deep-learning,computer-vision,notation,Deep Learning,Computer Vision,Notation,我有一个关于特征金字塔网络(FPN)体系结构中下采样过程的表示法的问题。我不确定堆栈溢出是否是解决这个问题的最佳位置。因此,任何关于更好地方的提示都是非常受欢迎的 我的问题可以用FPN的一位原始作者的介绍中的以下图片来最好地说明: 资料来源:幻灯片11 1和1/4的比例标注对我来说很有意义。显然,我们从满刻度开始,在一个池步骤之后,我们的刻度为1/4,因为我们在x和y方向上缩小了2倍。但据我所知,按照同样的逻辑,在下一阶段(即在下一次合并之后),我们的比例应为1/16。在下一步1/64等之后。

我有一个关于特征金字塔网络(FPN)体系结构中下采样过程的表示法的问题。我不确定堆栈溢出是否是解决这个问题的最佳位置。因此,任何关于更好地方的提示都是非常受欢迎的

我的问题可以用FPN的一位原始作者的介绍中的以下图片来最好地说明:

资料来源:幻灯片11


1和1/4的比例标注对我来说很有意义。显然,我们从满刻度开始,在一个池步骤之后,我们的刻度为1/4,因为我们在x和y方向上缩小了2倍。但据我所知,按照同样的逻辑,在下一阶段(即在下一次合并之后),我们的比例应为1/16。在下一步1/64等之后。我缺少什么?

在一个轮询步骤之后,您将得到1/2而不是1/4的刻度。比例参照的是沿轴的更改,而不是面积的比率。 那么,为什么一开始就有1/4的变化呢? 如幻灯片11所示,图形参照到resnet/resnext模型。如果我们看一下resnet模型架构,我们可以看到,首先我们有一个7x7的卷积,带有步长2,然后是轮询层,带有步长2,因此总体而言,我们每个轴减少1/4。 在接下来的阶段中,我们只使用步长2进行轮询,因此我们只得到因子2的变化。即1/8、1/16和1/32