Computer vision 边界框的尺度不变性和对数空间平移是什么?

Computer vision 边界框的尺度不变性和对数空间平移是什么?,computer-vision,object-detection,image-recognition,bounding-box,faster-rcnn,Computer Vision,Object Detection,Image Recognition,Bounding Box,Faster Rcnn,在慢R-CNN论文中,边界盒回归的目标是学习一种变换,该变换将建议的边界盒p映射到地面真值盒G,我们用四个函数dx(p)、dy(p)、dw(p)、dh(p)对变换进行参数化 前2个指定p边界框中心的缩放不变平移,而 第二个两个指定p的边界框相对于对象方案的宽度和高度的对数空间平移 这与快速RCNN论文中用于BB预测的技术相同 问题1。有谁能帮助我理解边界框的尺度不变性和对数空间(两者)的相关性,以及这些函数如何捕捉这两个方面 问题2。上述BB尺度不变平移与实现尺度不变对象检测有何不同(解

在慢R-CNN论文中,边界盒回归的目标是学习一种变换,该变换将建议的边界盒p映射到地面真值盒G,我们用四个函数dx(p)、dy(p)、dw(p)、dh(p)对变换进行参数化

  • 前2个指定p边界框中心的缩放不变平移,而

  • 第二个两个指定p的边界框相对于对象方案的宽度和高度的对数空间平移

这与快速RCNN论文中用于BB预测的技术相同

问题1。有谁能帮助我理解边界框的尺度不变性和对数空间(两者)的相关性,以及这些函数如何捕捉这两个方面

问题2。上述BB尺度不变平移与实现尺度不变对象检测有何不同(解释如下)

我的意思是,在fast R-CNN中,作者指出以下两种方法可以实现目标检测中的尺度不变性:

  • 首先,蛮力方法,在训练和测试期间,以预定义的像素大小处理每个图像。网络必须直接从训练数据中学习尺度不变的目标检测

  • 第二种方法是使用图像金字塔。


请随意引用研究论文,以便我能够深入理解。

这些函数的目标是将dx(p)、dy(p)、dw(p)、dh(p)从建议框转换为基本事实框。它们被建模为来自特征映射的集合特征的线性函数,并且它们包含可学习的参数(权重)

本文指出,
dx(p),dy(p)
指定p的边界框中心的比例不变平移,注意它们指定的是,而不是,那么这种平移是什么呢?翻译如下:

为了理解什么是尺度不变性,我们可以从为什么需要它开始?因为盒子可以有不同的尺寸在下图中,拿着球棒的人和投掷者的提案箱大小不同,在ROI合并后,这两个箱子都将表示为固定的相同形状特征向量(固定的和相同的形状!!)。当回归器进行预测时,它只预测值
dx(P)
dy(P)
,而不区分特征向量来自哪个建议框。将此值应用于输入图像时,由于我们已经拥有提案bboxes(
Px,Py,Pw,Ph
)提供的信息,因此可以通过转换简单地计算输入图像中bboxes的中心
(注意,两个方案均为个人类方案,因此回归者可能相同,否则回归者不同)

至于后两个转变:

如果在两侧应用对数变换,您将看到:


dw(p)
dh(p)
指定日志空间转换

至于第二个问题,边界盒回归是整个检测管道的一部分,仅用于bbox回归。与bbox回归相比,目标检测还必须处理图像分类、建议生成等。例如,在建议生成过程中应用金字塔图像


这个问题可能更适合或。但一定要阅读他们的帮助中心关于主题的信息。