Computer vision YOLO和滑动窗口算法的输出向量

Computer vision YOLO和滑动窗口算法的输出向量,computer-vision,object-detection,yolo,Computer Vision,Object Detection,Yolo,正如我在YOLO算法中所理解的,我们将input图像划分为一个网格,例如19x19,我们必须为每个单元提供输出向量(pc、bx、by、bh、bw、c)。然后我们可以训练我们的网络。我的问题是:为什么我们只给网络XML文件一个边界框、标签等(如果图像上只有一个对象),而不是给19*19=361个?网络的实现是否自动分割图像并为每个单元创建向量?(它是如何做到的?) 同样的问题也适用于滑动窗口算法。为什么我们只给网络一个带有标签和边界框的向量,而不是给每个滑动窗口提供向量。假设YOLO的输出由19×

正如我在YOLO算法中所理解的,我们将input图像划分为一个网格,例如19x19,我们必须为每个单元提供输出向量(pc、bx、by、bh、bw、c)。然后我们可以训练我们的网络。我的问题是:为什么我们只给网络XML文件一个边界框、标签等(如果图像上只有一个对象),而不是给19*19=361个?网络的实现是否自动分割图像并为每个单元创建向量?(它是如何做到的?)


同样的问题也适用于滑动窗口算法。为什么我们只给网络一个带有标签和边界框的向量,而不是给每个滑动窗口提供向量。

假设YOLO的输出由19×19个网格单元组成,每个网格单元都有一定的深度。每个网格单元可以检测一些边界框,其最大数量取决于模型的配置。例如,如果一个网格单元最多可以检测5个边界框,则模型总共可以检测19x19x5=1805个边界框

由于这个数字太大,我们对模型进行训练,使得只有包含边界框中心的网格单元才能以高置信度预测边界框。当我们训练模型时,我们首先找出真实边界框的中心在哪里,然后训练模型,使包含中心的网格单元以高概率预测与真实边界框相似的边界框,并使其他网格单元以尽可能低的概率预测边界框(当概率低于阈值时,放弃该预测)

下图显示了当输出有13×13个网格单元时,包含方框中心的网格单元

当训练图像中有多个对象时也是如此。如果训练图像中有两个对象,我们将更新包含真实两个框中心的两个网格单元,以便它们以高概率生成边界框