Deep learning 深度学习-特征金字塔网络-如何理解下采样符号？_Deep Learning_Computer Vision_Notation

Deep learning 深度学习-特征金字塔网络-如何理解下采样符号？

deep-learning computer-vision

Deep learning 深度学习-特征金字塔网络-如何理解下采样符号？,deep-learning,computer-vision,notation,Deep Learning,Computer Vision,Notation,我有一个关于特征金字塔网络（FPN）体系结构中下采样过程的表示法的问题。我不确定堆栈溢出是否是解决这个问题的最佳位置。因此，任何关于更好地方的提示都是非常受欢迎的我的问题可以用FPN的一位原始作者的介绍中的以下图片来最好地说明：资料来源：幻灯片11 1和1/4的比例标注对我来说很有意义。显然，我们从满刻度开始，在一个池步骤之后，我们的刻度为1/4，因为我们在x和y方向上缩小了2倍。但据我所知，按照同样的逻辑，在下一阶段（即在下一次合并之后），我们的比例应为1/16。在下一步1/64等之后。

我有一个关于特征金字塔网络（FPN）体系结构中下采样过程的表示法的问题。我不确定堆栈溢出是否是解决这个问题的最佳位置。因此，任何关于更好地方的提示都是非常受欢迎的

我的问题可以用FPN的一位原始作者的介绍中的以下图片来最好地说明：

资料来源：幻灯片11

1和1/4的比例标注对我来说很有意义。显然，我们从满刻度开始，在一个池步骤之后，我们的刻度为1/4，因为我们在x和y方向上缩小了2倍。但据我所知，按照同样的逻辑，在下一阶段（即在下一次合并之后），我们的比例应为1/16。在下一步1/64等之后。我缺少什么？

在一个轮询步骤之后，您将得到1/2而不是1/4的刻度。比例参照的是沿轴的更改，而不是面积的比率。那么，为什么一开始就有1/4的变化呢？如幻灯片11所示，图形参照到resnet/resnext模型。如果我们看一下resnet模型架构，我们可以看到，首先我们有一个7x7的卷积，带有步长2，然后是轮询层，带有步长2，因此总体而言，我们每个轴减少1/4。在接下来的阶段中，我们只使用步长2进行轮询，因此我们只得到因子2的变化。即1/8、1/16和1/32