Computer vision 关于Yolo目标检测算法的概念问题_Computer Vision_Object Detection_Yolo

Computer vision 关于Yolo目标检测算法的概念问题

computer-vision

Computer vision 关于Yolo目标检测算法的概念问题,computer-vision,object-detection,yolo,Computer Vision,Object Detection,Yolo,我的理解是，锚定框（在Yolo v2算法中）的动机是，在Yolo的第一个版本（Yolo v1）中，不可能在同一个网格框中检测多个对象。我不明白为什么会这样此外，作者的原始论文（Yolo v1）引用了以下内容： “每个网格单元预测B个边界框和这些框的置信度分数。这些置信度分数反映了模型对框包含对象的置信度，以及它认为框预测的准确性。” 这不表示网格单元可以识别多个对象吗？在他们的论文中，他们把B作为2。为什么不把B作为任意更高的数字，比如说10 第二个问题：如何将锚定框标注绑定到边界框标注，以检

我的理解是，锚定框（在Yolo v2算法中）的动机是，在Yolo的第一个版本（Yolo v1）中，不可能在同一个网格框中检测多个对象。我不明白为什么会这样

此外，作者的原始论文（Yolo v1）引用了以下内容：

“每个网格单元预测B个边界框和这些框的置信度分数。这些置信度分数反映了模型对框包含对象的置信度，以及它认为框预测的准确性。”

这不表示网格单元可以识别多个对象吗？在他们的论文中，他们把B作为2。为什么不把B作为任意更高的数字，比如说10

第二个问题：如何将锚定框标注绑定到边界框标注，以检测特定对象？一些网站说锚定框只定义了一个形状，而另一些网站说锚定框定义了一个形状和大小。在这两种情况下，锚定框如何绑定到边界框

谢谢，

Sandeep

你说得对，YOLOv1有多个（B）边界框，但这些边界框并没有以有效或系统的方式分配给基本事实，因此推断边界框也不够准确

正如您在互联网上的博客文章中所看到的，锚定/默认框是原始图像中的一个框，对应于特定要素地图中的特定单元，该要素地图具有特定的纵横比和比例。比例尺通常由要素图（较深的要素图->较大的锚定比例尺）决定，纵横比不同，例如{1:1,1:2,2:1}或{1:1,1:2,2:1,1:3,3:1}。通过比例和纵横比，指定了一个特定的形状，该形状的位置由特征地图中当前单元的位置指定，并与原始图像中的地面真实边界框进行比较

不同的论文有不同的分配方案，但通常是这样的：（1）如果带有GT的原始图像上的锚的IoU超过某个阈值（例如0.5），则这是对锚的正分配，（2）如果低于某个阈值（例如0.1），则这是负分配，以及（3）如果这两个阈值之间存在间隙，则忽略两者之间的锚（在损失计算中）

通过这种方式，锚实际上就像一个负责特定情况的“探测头”，从形状上看，这与锚最为相似。因此，它负责检测形状与之相似的对象，并推断每个类的置信度和与其相关的边界框参数，即修改锚点的高度、宽度和中心（在两个轴上）以接收正确的边界框的程度

由于这种分配方案在不同的锚之间有效地分配了责任，因此边界框预测更加准确

YOLOv1方案的另一个缺点是它将边界框和分类解耦。一方面，这节省了计算量，但另一方面，分类是在网格单元级别上进行的。因此，边界框的B选项都具有相同的类预测。这意味着，例如，如果有多个不同类的对象具有相同的中心（例如，持猫的人），则除一个对象外，至少所有对象的分类都是错误的。请注意，从理论上讲，相邻网格单元的其他预测可能会对该错误分类进行补偿，但这不是承诺，特别是因为根据YOLOv1的方案，中心是分配标准