Computer vision 关于Yolo目标检测算法的概念问题

Computer vision 关于Yolo目标检测算法的概念问题,computer-vision,object-detection,yolo,Computer Vision,Object Detection,Yolo,我的理解是,锚定框(在Yolo v2算法中)的动机是,在Yolo的第一个版本(Yolo v1)中,不可能在同一个网格框中检测多个对象。我不明白为什么会这样 此外,作者的原始论文(Yolo v1)引用了以下内容: “每个网格单元预测B个边界框和这些框的置信度分数。这些置信度分数反映了模型对框包含对象的置信度,以及它认为框预测的准确性。” 这不表示网格单元可以识别多个对象吗?在他们的论文中,他们把B作为2。为什么不把B作为任意更高的数字,比如说10 第二个问题:如何将锚定框标注绑定到边界框标注,以检

我的理解是,锚定框(在Yolo v2算法中)的动机是,在Yolo的第一个版本(Yolo v1)中,不可能在同一个网格框中检测多个对象。我不明白为什么会这样

此外,作者的原始论文(Yolo v1)引用了以下内容:

“每个网格单元预测B个边界框和这些框的置信度分数。这些置信度分数反映了模型对框包含对象的置信度,以及它认为框预测的准确性。”

这不表示网格单元可以识别多个对象吗?在他们的论文中,他们把B作为2。为什么不把B作为任意更高的数字,比如说10

第二个问题:如何将锚定框标注绑定到边界框标注,以检测特定对象?一些网站说锚定框只定义了一个形状,而另一些网站说锚定框定义了一个形状和大小。在这两种情况下,锚定框如何绑定到边界框

谢谢,
Sandeep

你说得对,YOLOv1有多个(B)边界框,但这些边界框并没有以有效或系统的方式分配给基本事实,因此推断边界框也不够准确

正如您在互联网上的博客文章中所看到的,锚定/默认框是原始图像中的一个框,对应于特定要素地图中的特定单元,该要素地图具有特定的纵横比和比例。 比例尺通常由要素图(较深的要素图->较大的锚定比例尺)决定,纵横比不同,例如{1:1,1:2,2:1}或{1:1,1:2,2:1,1:3,3:1}。 通过比例和纵横比,指定了一个特定的形状,该形状的位置由特征地图中当前单元的位置指定,并与原始图像中的地面真实边界框进行比较

不同的论文有不同的分配方案,但通常是这样的:(1)如果带有GT的原始图像上的锚的IoU超过某个阈值(例如0.5),则这是对锚的正分配,(2)如果低于某个阈值(例如0.1),则这是负分配,以及(3)如果这两个阈值之间存在间隙,则忽略两者之间的锚(在损失计算中)

通过这种方式,锚实际上就像一个负责特定情况的“探测头”,从形状上看,这与锚最为相似。因此,它负责检测形状与之相似的对象,并推断每个类的置信度和与其相关的边界框参数,即修改锚点的高度、宽度和中心(在两个轴上)以接收正确的边界框的程度

由于这种分配方案在不同的锚之间有效地分配了责任,因此边界框预测更加准确

YOLOv1方案的另一个缺点是它将边界框和分类解耦。一方面,这节省了计算量,但另一方面,分类是在网格单元级别上进行的。因此,边界框的B选项都具有相同的类预测。这意味着,例如,如果有多个不同类的对象具有相同的中心(例如,持猫的人),则除一个对象外,至少所有对象的分类都是错误的。请注意,从理论上讲,相邻网格单元的其他预测可能会对该错误分类进行补偿,但这不是承诺,特别是因为根据YOLOv1的方案,中心是分配标准