Image processing 计算机视觉地面真实数据采集与评价

Image processing 计算机视觉地面真实数据采集与评价,image-processing,metadata,computer-vision,tracking,evaluation,Image Processing,Metadata,Computer Vision,Tracking,Evaluation,目前,我正开始开发一个计算机视觉应用程序,其中包括跟踪人类。我想建立地面真相元数据的视频,将在这个项目中记录。元数据可能需要手动标记,并且主要包括人在图像中的位置。我想使用元数据来评估我的算法的性能 当然,我可以使用qt和/或opencv构建一个标签工具,但我想知道是否有某种实际的标准。我遇到过,但它似乎死了,它并不像我希望的那么容易。除此之外,我还没找到多少 这里有没有人对标签和评估使用哪种软件/标准/方法有一些建议?我的主要偏好是去寻找C++的面向对象,但这不是一个硬约束。 提前向您致以亲切

目前,我正开始开发一个计算机视觉应用程序,其中包括跟踪人类。我想建立地面真相元数据的视频,将在这个项目中记录。元数据可能需要手动标记,并且主要包括人在图像中的位置。我想使用元数据来评估我的算法的性能

当然,我可以使用qt和/或opencv构建一个标签工具,但我想知道是否有某种实际的标准。我遇到过,但它似乎死了,它并不像我希望的那么容易。除此之外,我还没找到多少

这里有没有人对标签和评估使用哪种软件/标准/方法有一些建议?我的主要偏好是去寻找C++的面向对象,但这不是一个硬约束。 提前向您致以亲切的问候和感谢!
汤姆

这是所有计算机视觉从业者都面临的问题。如果你是认真的,有一家公司通过众包为你做这件事。不过,我不知道是否应该在这个网站上放一个链接。

我又看了一眼,让它开始工作了。它是一个在线视频注释工具,用于通过商业服务进行众包,并在Linux上运行。但是,也有脱机模式。在此模式下,不需要用于开发此软件的服务,并且软件独立运行

随附的自述文件对安装过程进行了详细描述。其中包括设置appache和mysql服务器、一些python包、ffmpeg。如果你按照自述书的内容去做,这并不难。(我提到我的代理有一些问题,但这与此软件包无关)

您可以尝试在线演示。默认输出如下所示:

0 302 113 319 183 0 1 0 0 "person"
0 300 112 318 182 1 1 0 1 "person"
0 298 111 318 182 2 1 0 1 "person"
0 296 110 318 181 3 1 0 1 "person"
0 294 110 318 181 4 1 0 1 "person"
0 292 109 318 180 5 1 0 1 "person"
0 290 108 318 180 6 1 0 1 "person"
0 288 108 318 179 7 1 0 1 "person"
0 286 107 317 179 8 1 0 1 "person"
0 284 106 317 178 9 1 0 1 "person"
每行包含10多列,以空格分隔。这个 这些列的定义如下:

1   Track ID. All rows with the same ID belong to the same path.
2   xmin. The top left x-coordinate of the bounding box.
3   ymin. The top left y-coordinate of the bounding box.
4   xmax. The bottom right x-coordinate of the bounding box.
5   ymax. The bottom right y-coordinate of the bounding box.
6   frame. The frame that this annotation represents.
7   lost. If 1, the annotation is outside of the view screen.
8   occluded. If 1, the annotation is occluded.
9   generated. If 1, the annotation was automatically interpolated.
10  label. The label for this annotation, enclosed in quotation marks.
11+ attributes. Each column after this is an attribute.
但也可以提供xml、json、pickle、labelme和pascal voc格式的输出

所以,总而言之,这正是我想要的,而且它也很容易使用。
我仍然对其他的选择感兴趣

是另一个开放式注释工具。我认为这不太适合我的具体情况,但仍然值得一提。它似乎是面向blob标签的。

我在寻找用于图像注释的工具以构建用于图像分析训练模型的基本真实数据集时遇到了相同的问题


如果注释需要多边形轮廓,LabelMe是一个实体选项。我以前使用过它,它做得很好,在3d特征提取方面有一些额外的很酷的功能。除了LabelMe,我还制作了一个开源工具,名为。如果你还在寻找一个工具来做你的注释,去看看吧

我还对创建一些基本事实数据感兴趣,并对自己制作一个基本程序感到有点无奈。您是否有幸找到现有的标签应用程序?我觉得周围真的应该有一些……不,不幸的是我没有。不过我还是感兴趣。我不介意制作一些特别的软件,但我认为如果有更标准的软件,它会更有用。你找到什么了吗?不是我需要有人帮我做的。但众源一个dcomputer vision注释让我找到了以下内容:。乍一看,它看起来是有用的。看起来确实很有用,还需要进一步研究。我试过了,但由于代理问题,我还没有成功。我很想知道你是否成功了,如果成功了,是否可以在没有众包的情况下使用这个软件。谢谢你,我还没有资格投票支持你的答案。我会尽我所能去做的。拉贝尔姆和梵蒂克相比怎么样?它似乎允许用户指定边界形状,而不是像梵蒂克那样使用矩形。这是主要区别,还是有其他区别?是什么让它不那么合适?我仍在安装梵蒂克,所以还没有尝试过,但我会把拉贝尔姆添加到我的列表中。嘿,我是梵蒂克的作者,也与拉贝尔姆的家人密切合作。LabelMe本身是为图像设计的,但也有一个视频版本的LabelMe。VATIC和LabelMe的主要区别在于LabelMe支持多边形注释,并且没有Mechanical Turk基础设施。然而,我在用户研究中发现,标记多边形比标记边界框更耗时。在任何情况下,如果你遇到麻烦,给我发一封电子邮件,我很乐意回答问题/让你与合适的人联系。事实上,我有一个问题。由于问题的标题是GT数据收集和评估,您建议如何评估边界框?我遇到了一个看起来很合适的人。(也许我应该为此打开一个单独的线程…@Goosebumps:如果您正在评估跟踪算法,那么常见的指标是失败时间(跟踪器丢失对象前的帧数)、正确框的百分比或精确召回曲线。为了确定预测框是否与地面真相相匹配,计算机视觉研究人员通常使用50%的重叠,这基本上就是Jaccard指数:如果预测和地面真相之间的Jaccard指数为0.5或更大,那么预测是正确的,否则就错了。谢谢Carl,这是有用的信息。我还不知道重叠百分比的惯例。我也会考虑你提到的其他指标。嘿,我是VATIC的作者。很高兴听到你发现它很有用——如果你遇到麻烦,请随时给我留言或在这里四处打听。我总是很乐意帮忙!