Machine learning 保存视频中每个帧的边界框坐标

Machine learning 保存视频中每个帧的边界框坐标,machine-learning,computer-vision,vision,Machine Learning,Computer Vision,Vision,我有一段现场有人的摄像机录像。我需要浏览该视频的每一帧,并手动保存场景中被检测到的人的边界框的坐标(浏览每一帧并画出每个人周围的正方形)和头部中心的坐标-因此基本上,左上,右下,头部中心坐标。边界框必须是正方形 然后,另一个程序将读取一个文件,其中包含头部的正方形和中心坐标以及帧号,并将框提取为图像 对于任何有计算机视觉经验的人来说,有没有开源软件可以满足我的要求?如果没有,您会推荐在什么技术上构建此工具?有什么入门代码吗?我不知道有什么程序可以专门做到这一点,但我认为这是一个很容易的问题,你可

我有一段现场有人的摄像机录像。我需要浏览该视频的每一帧,并手动保存场景中被检测到的人的边界框的坐标(浏览每一帧并画出每个人周围的正方形)和头部中心的坐标-因此基本上,
左上
右下
头部中心
坐标。边界框必须是正方形

然后,另一个程序将读取一个文件,其中包含头部的正方形和中心坐标以及帧号,并将框提取为图像


对于任何有计算机视觉经验的人来说,有没有开源软件可以满足我的要求?如果没有,您会推荐在什么技术上构建此工具?有什么入门代码吗?

我不知道有什么程序可以专门做到这一点,但我认为这是一个很容易的问题,你可以自己编写代码

因为你是在计算机视觉领域,你必须习惯OpenCV。您可以使用它从视频中提取帧,并选择长方体和头部中心

以下是一些可以帮助您解决问题的链接:


您是否需要仅检测面部(即面部在您的边界框内)或整个身体(然后检测头部中心)?此外,摄像头是否静止或移动?如果相机(因此背景)是静态的,你也许可以使用背景减法。这个问题太笼统了。能够检测物体(人类)是计算机视觉的主要挑战之一。跟踪它们(是否需要?)是另一个难题。请在场景中添加更多细节(室内/室外、视角、静态遮挡、人员密度等),我想手动执行此操作-即,我将亲自查看每一帧并绘制边界框。稍后,另一个程序将读取一个文件,其中包含头部的正方形和中心坐标以及帧编号,并将框提取为图像。提取的图像将用作我的训练数据集。