Machine learning 保存视频中每个帧的边界框坐标_Machine Learning_Computer Vision_Vision

Machine learning 保存视频中每个帧的边界框坐标

machine-learning computer-vision

Machine learning 保存视频中每个帧的边界框坐标,machine-learning,computer-vision,vision,Machine Learning,Computer Vision,Vision,我有一段现场有人的摄像机录像。我需要浏览该视频的每一帧，并手动保存场景中被检测到的人的边界框的坐标（浏览每一帧并画出每个人周围的正方形）和头部中心的坐标-因此基本上，左上，右下，头部中心坐标。边界框必须是正方形然后，另一个程序将读取一个文件，其中包含头部的正方形和中心坐标以及帧号，并将框提取为图像对于任何有计算机视觉经验的人来说，有没有开源软件可以满足我的要求？如果没有，您会推荐在什么技术上构建此工具？有什么入门代码吗？我不知道有什么程序可以专门做到这一点，但我认为这是一个很容易的问题，你可

我有一段现场有人的摄像机录像。我需要浏览该视频的每一帧，并手动保存场景中被检测到的人的边界框的坐标（浏览每一帧并画出每个人周围的正方形）和头部中心的坐标-因此基本上，

左上

，

右下

，

头部中心

坐标。边界框必须是正方形

然后，另一个程序将读取一个文件，其中包含头部的正方形和中心坐标以及帧号，并将框提取为图像

对于任何有计算机视觉经验的人来说，有没有开源软件可以满足我的要求？如果没有，您会推荐在什么技术上构建此工具？有什么入门代码吗？

我不知道有什么程序可以专门做到这一点，但我认为这是一个很容易的问题，你可以自己编写代码

因为你是在计算机视觉领域，你必须习惯OpenCV。您可以使用它从视频中提取帧，并选择长方体和头部中心

以下是一些可以帮助您解决问题的链接：

您是否需要仅检测面部（即面部在您的边界框内）或整个身体（然后检测头部中心）？此外，摄像头是否静止或移动？如果相机（因此背景）是静态的，你也许可以使用背景减法。这个问题太笼统了。能够检测物体（人类）是计算机视觉的主要挑战之一。跟踪它们（是否需要？）是另一个难题。请在场景中添加更多细节（室内/室外、视角、静态遮挡、人员密度等），我想手动执行此操作-即，我将亲自查看每一帧并绘制边界框。稍后，另一个程序将读取一个文件，其中包含头部的正方形和中心坐标以及帧编号，并将框提取为图像。提取的图像将用作我的训练数据集。