Deep learning 快速R-CNN中ROI层的用途是什么?

Deep learning 快速R-CNN中ROI层的用途是什么?,deep-learning,computer-vision,conv-neural-network,object-detection,Deep Learning,Computer Vision,Conv Neural Network,Object Detection,在关于目标检测的教程中,提到了快速R-CNN。还提到了ROI(感兴趣区域)层 从数学上讲,当区域建议根据最终卷积层激活函数(在每个单元中)调整大小时,会发生什么情况?中引入了ROI(感兴趣区域)层,这是中引入的空间金字塔池层的特例。ROI层的主要功能是,由于全连接层中的大小限制,将任意大小的输入整形为固定长度的输出 ROI层的工作原理如下所示: 在该图像中,具有任意大小的输入图像被馈入该层,该层具有3个不同的窗口:4x4(蓝色)、2x2(绿色)、1x1(灰色),以分别产生固定大小为16 x F

在关于目标检测的教程中,提到了快速R-CNN。还提到了ROI(感兴趣区域)层

从数学上讲,当区域建议根据最终卷积层激活函数(在每个单元中)调整大小时,会发生什么情况?

中引入了ROI(感兴趣区域)层,这是中引入的空间金字塔池层的特例。ROI层的主要功能是,由于全连接层中的大小限制,将任意大小的输入整形为固定长度的输出

ROI层的工作原理如下所示:

在该图像中,具有任意大小的输入图像被馈入该层,该层具有3个不同的窗口:4x4(蓝色)、2x2(绿色)、1x1(灰色),以分别产生固定大小为16 x F、4 x F和1 x F的输出,其中F是滤波器的数量。然后,这些输出被连接成一个向量,以馈送到完全连接的层

感兴趣区域(RoI)池:

它是一种池层,对大小不一致的输入(这里是convnet特征映射)执行最大池,并生成固定大小的小特征映射(例如7x7)。此固定大小的选择是网络超参数,是预定义的

这样做的主要目的是加快培训和测试时间,并从端到端(以联合方式)培训整个系统

由于使用了这个池层,与原始(香草?)R-CNN架构相比,训练和测试时间更快,因此命名为Fast R-CNN

简单示例(摘自):


此处区域建议仅指图像中区域的形状或图像的一部分(像素),然后乘以最大过滤值?@Shamanesirivardhana区域建议是指从图像中建议感兴趣区域的方法。您能否详细说明“由于完全连接层中的大小限制”这一点。既然我们将像素值(标量)输入到FC层的神经元中,为什么输入矩阵的大小很重要。“大小约束”指的是输入图像的尺寸。例如,LeNet-5只能拍摄32x32图像,因此您可以在不调整大小的情况下将64x64或64x32图像馈送到其中,这最终会导致转换丢失。此约束是由于第一个完全连接的层“需要根据其定义输入固定的大小/长度”。FC层的大小约束是因为FC层执行与矩阵向量乘法相同的操作。矩阵包含参数且大小固定,因此输入向量必须为匹配大小。RPN预测bbox坐标。该预测如何映射到从中提取ROI池的conv层?显然,conv层的参数H和W很小,与预测的参数不同。因此,conv层通常有许多贴图(例如512)。它们是否都用于RoI池?