Deep learning 快速R-CNN中ROI层的用途是什么？_Deep Learning_Computer Vision_Conv Neural Network_Object Detection

Deep learning 快速R-CNN中ROI层的用途是什么？

deep-learning computer-vision

Deep learning 快速R-CNN中ROI层的用途是什么？,deep-learning,computer-vision,conv-neural-network,object-detection,Deep Learning,Computer Vision,Conv Neural Network,Object Detection,在关于目标检测的教程中，提到了快速R-CNN。还提到了ROI（感兴趣区域）层从数学上讲，当区域建议根据最终卷积层激活函数（在每个单元中）调整大小时，会发生什么情况？中引入了ROI（感兴趣区域）层，这是中引入的空间金字塔池层的特例。ROI层的主要功能是，由于全连接层中的大小限制，将任意大小的输入整形为固定长度的输出 ROI层的工作原理如下所示：在该图像中，具有任意大小的输入图像被馈入该层，该层具有3个不同的窗口：4x4（蓝色）、2x2（绿色）、1x1（灰色），以分别产生固定大小为16 x F

在关于目标检测的教程中，提到了快速R-CNN。还提到了ROI（感兴趣区域）层

从数学上讲，当区域建议根据最终卷积层激活函数（在每个单元中）调整大小时，会发生什么情况？

中引入了ROI（感兴趣区域）层，这是中引入的空间金字塔池层的特例。ROI层的主要功能是，由于全连接层中的大小限制，将任意大小的输入整形为固定长度的输出

ROI层的工作原理如下所示：

在该图像中，具有任意大小的输入图像被馈入该层，该层具有3个不同的窗口：4x4（蓝色）、2x2（绿色）、1x1（灰色），以分别产生固定大小为16 x F、4 x F和1 x F的输出，其中F是滤波器的数量。然后，这些输出被连接成一个向量，以馈送到完全连接的层

感兴趣区域（RoI）池：

它是一种池层，对大小不一致的输入（这里是convnet特征映射）执行最大池，并生成固定大小的小特征映射（例如7x7）。此固定大小的选择是网络超参数，是预定义的

这样做的主要目的是加快培训和测试时间，并从端到端（以联合方式）培训整个系统

由于使用了这个池层，与原始（香草？）R-CNN架构相比，训练和测试时间更快，因此命名为Fast R-CNN

简单示例（摘自）：

此处区域建议仅指图像中区域的形状或图像的一部分（像素），然后乘以最大过滤值？@Shamanesirivardhana区域建议是指从图像中建议感兴趣区域的方法。您能否详细说明“由于完全连接层中的大小限制”这一点。既然我们将像素值（标量）输入到FC层的神经元中，为什么输入矩阵的大小很重要。“大小约束”指的是输入图像的尺寸。例如，LeNet-5只能拍摄32x32图像，因此您可以在不调整大小的情况下将64x64或64x32图像馈送到其中，这最终会导致转换丢失。此约束是由于第一个完全连接的层“需要根据其定义输入固定的大小/长度”。FC层的大小约束是因为FC层执行与矩阵向量乘法相同的操作。矩阵包含参数且大小固定，因此输入向量必须为匹配大小。RPN预测bbox坐标。该预测如何映射到从中提取ROI池的conv层？显然，conv层的参数H和W很小，与预测的参数不同。因此，conv层通常有许多贴图（例如512）。它们是否都用于RoI池？