Computer vision 边界框的尺度不变性和对数空间平移是什么？_Computer Vision_Object Detection_Image Recognition_Bounding Box_Faster Rcnn

Computer vision 边界框的尺度不变性和对数空间平移是什么？

computer-vision

Computer vision 边界框的尺度不变性和对数空间平移是什么？,computer-vision,object-detection,image-recognition,bounding-box,faster-rcnn,Computer Vision,Object Detection,Image Recognition,Bounding Box,Faster Rcnn,在慢R-CNN论文中，边界盒回归的目标是学习一种变换，该变换将建议的边界盒p映射到地面真值盒G，我们用四个函数dx（p）、dy（p）、dw（p）、dh（p）对变换进行参数化前2个指定p边界框中心的缩放不变平移，而第二个两个指定p的边界框相对于对象方案的宽度和高度的对数空间平移这与快速RCNN论文中用于BB预测的技术相同问题1。有谁能帮助我理解边界框的尺度不变性和对数空间（两者）的相关性，以及这些函数如何捕捉这两个方面问题2。上述BB尺度不变平移与实现尺度不变对象检测有何不同（解

在慢R-CNN论文中，边界盒回归的目标是学习一种变换，该变换将建议的边界盒p映射到地面真值盒G，我们用四个函数dx（p）、dy（p）、dw（p）、dh（p）对变换进行参数化

前2个指定p边界框中心的缩放不变平移，而
第二个两个指定p的边界框相对于对象方案的宽度和高度的对数空间平移

这与快速RCNN论文中用于BB预测的技术相同
问题1。有谁能帮助我理解边界框的尺度不变性和对数空间（两者）的相关性，以及这些函数如何捕捉这两个方面
问题2。上述BB尺度不变平移与实现尺度不变对象检测有何不同（解释如下）
我的意思是，在fast R-CNN中，作者指出以下两种方法可以实现目标检测中的尺度不变性：

首先，蛮力方法，在训练和测试期间，以预定义的像素大小处理每个图像。网络必须直接从训练数据中学习尺度不变的目标检测

第二种方法是使用图像金字塔。

请随意引用研究论文，以便我能够深入理解。

这些函数的目标是将dx（p）、dy（p）、dw（p）、dh（p）从建议框转换为基本事实框。它们被建模为来自特征映射的集合特征的线性函数，并且它们包含可学习的参数（权重）

本文指出，

dx（p），dy（p）

指定p的边界框中心的比例不变平移，注意它们指定的是，而不是，那么这种平移是什么呢？翻译如下：

为了理解什么是尺度不变性，我们可以从为什么需要它开始？因为盒子可以有不同的尺寸在下图中，拿着球棒的人和投掷者的提案箱大小不同，在ROI合并后，这两个箱子都将表示为固定的相同形状特征向量（固定的和相同的形状！！）。当回归器进行预测时，它只预测值
dx（P）
和
dy（P）
，而不区分特征向量来自哪个建议框。将此值应用于输入图像时，由于我们已经拥有提案bboxes（
Px，Py，Pw，Ph
）提供的信息，因此可以通过转换简单地计算输入图像中bboxes的中心（注意，两个方案均为个人类方案，因此回归者可能相同，否则回归者不同）

至于后两个转变：

如果在两侧应用对数变换，您将看到：

dw（p）
和
dh（p）
指定日志空间转换
至于第二个问题，边界盒回归是整个检测管道的一部分，仅用于bbox回归。与bbox回归相比，目标检测还必须处理图像分类、建议生成等。例如，在建议生成过程中应用金字塔图像

这个问题可能更适合或。但一定要阅读他们的帮助中心关于主题的信息。