Deep learning 从什么方面来衡量目标探测器的性能?

Deep learning 从什么方面来衡量目标探测器的性能?,deep-learning,object-detection,object-detection-api,Deep Learning,Object Detection,Object Detection Api,我正忙着测量物体探测器的预测结果。我从一些教程中了解到,在测试经过训练的对象检测器时,对于测试图像中的每个对象,都会提供以下信息: <object> <name>date</name> <pose>Unspecified</pose> <truncated>0</truncated> <difficult>0</difficult> <

我正忙着测量物体探测器的预测结果。我从一些教程中了解到,在测试经过训练的对象检测器时,对于测试图像中的每个对象,都会提供以下信息:

    <object>
    <name>date</name>
    <pose>Unspecified</pose>
    <truncated>0</truncated>
    <difficult>0</difficult>
    <bndbox>
        <xmin>451</xmin>
        <ymin>182</ymin>
        <xmax>695</xmax>
        <ymax>359</ymax>
    </bndbox>
</object>

日期
未指明
0
0
451
182
695
359
然而,我仍然不清楚1)物体探测器如何获取这些信息来测量精度,2)如何计算这种情况下的“损失”。这是一种严格的比较吗?例如,如果对于对象“date”,我得到以下输出:

    <object>
    <name>date</name>
    <pose>Unspecified</pose>
    <truncated>0</truncated>
    <difficult>0</difficult>
    <bndbox>
        <xmin>461</xmin>  <---- different
        <ymin>182</ymin>
        <xmax>695</xmax>
        <ymax>359</ymax>
    </bndbox>
</object>

日期
未指明
0
0

461用于目标检测任务。通常的性能指标是平均精度(mAP)

1) 上述信息包含检测到的对象类以及边界框。它们都是计算地图所需要的。这是一个很好的关于地图是如何计算的博客。地图计算中的一个关键概念称为联合交集(IoU),它指定检测到的边界框与地面真相框重叠的程度。通常,检测到的边界框应至少具有高于阈值(例如0.5)的IoU,以被视为正确定位对象。根据IoU阈值,可将检测框标记为“真阳性”、“TN”、“FP”和“FN”,以便进一步计算准确度指标

2) 丢失目标检测任务由两部分组成。分类损失和包围盒回归损失,总损失通常是这两者的加权和。(因此它们可以调整为关注边界框回归或分类)

关于您给出的示例,检测结果已正确分类对象,但边界框并不完全准确,在这种情况下,分类损失为0,而边界框回归损失为0。因此,模型在某种程度上知道预测结果仍然不完美,并且必须进一步学习才能给出更好的预测。如果标签错误,则只有分类损失


实际损失计算也与IoU有关。将为模型预定义一个IoU,以选择将选择哪些预测边界框参与损失计算。这是必要的,因为通常许多预测框会围绕同一对象堆叠在一起,因此最好选择其中一个或多个框,而不是全部框。

非常感谢。这正是我要找的。我甚至在这里找到了一个AP计算的原型实现:如果您想了解更多关于如何计算mAP的详细信息,请在这个github中找到另一个mAP度量实现。