Computer vision YOLO和滑动窗口算法的输出向量_Computer Vision_Object Detection_Yolo

Computer vision YOLO和滑动窗口算法的输出向量

computer-vision

Computer vision YOLO和滑动窗口算法的输出向量,computer-vision,object-detection,yolo,Computer Vision,Object Detection,Yolo,正如我在YOLO算法中所理解的，我们将input图像划分为一个网格，例如19x19，我们必须为每个单元提供输出向量（pc、bx、by、bh、bw、c）。然后我们可以训练我们的网络。我的问题是：为什么我们只给网络XML文件一个边界框、标签等（如果图像上只有一个对象），而不是给19*19=361个？网络的实现是否自动分割图像并为每个单元创建向量？（它是如何做到的？）同样的问题也适用于滑动窗口算法。为什么我们只给网络一个带有标签和边界框的向量，而不是给每个滑动窗口提供向量。假设YOLO的输出由19×

正如我在YOLO算法中所理解的，我们将input图像划分为一个网格，例如19x19，我们必须为每个单元提供输出向量（pc、bx、by、bh、bw、c）。然后我们可以训练我们的网络。我的问题是：为什么我们只给网络XML文件一个边界框、标签等（如果图像上只有一个对象），而不是给19*19=361个？网络的实现是否自动分割图像并为每个单元创建向量？（它是如何做到的？）

同样的问题也适用于滑动窗口算法。为什么我们只给网络一个带有标签和边界框的向量，而不是给每个滑动窗口提供向量。

假设YOLO的输出由19×19个网格单元组成，每个网格单元都有一定的深度。每个网格单元可以检测一些边界框，其最大数量取决于模型的配置。例如，如果一个网格单元最多可以检测5个边界框，则模型总共可以检测19x19x5=1805个边界框

由于这个数字太大，我们对模型进行训练，使得只有包含边界框中心的网格单元才能以高置信度预测边界框。当我们训练模型时，我们首先找出真实边界框的中心在哪里，然后训练模型，使包含中心的网格单元以高概率预测与真实边界框相似的边界框，并使其他网格单元以尽可能低的概率预测边界框（当概率低于阈值时，放弃该预测）
下图显示了当输出有13×13个网格单元时，包含方框中心的网格单元

当训练图像中有多个对象时也是如此。如果训练图像中有两个对象，我们将更新包含真实两个框中心的两个网格单元，以便它们以高概率生成边界框