Computer vision 如何在Intel CVAT中导出包含数据的TFRecord?

Computer vision 如何在Intel CVAT中导出包含数据的TFRecord?,computer-vision,artificial-intelligence,opencv3.0,gcp-ai-platform-training,Computer Vision,Artificial Intelligence,Opencv3.0,Gcp Ai Platform Training,我用英特尔公司的CVAT对大约15分钟的视频进行了注释。- 当导出到TFRecord时,该文件只有大约4mb(至少应该接近200mb),并且似乎实际上不包含任何图像数据。如何导出带有图像数据和注释数据的TF记录?自2019年1月12日起-英特尔CVAT目前不支持此功能 我能够实现我的目标,并通过使用ffmpeg组合将原始.mov分割成帧并生成tfrecord来创建包含注释数据和图像数据的tfrecords。我面临着同样的问题,这正是我提出您的问题的原因。CVAT似乎只导出注释数据,您负责提取图像

我用英特尔公司的CVAT对大约15分钟的视频进行了注释。-


当导出到TFRecord时,该文件只有大约4mb(至少应该接近200mb),并且似乎实际上不包含任何图像数据。如何导出带有图像数据和注释数据的TF记录?

自2019年1月12日起-英特尔CVAT目前不支持此功能


我能够实现我的目标,并通过使用
ffmpeg
组合将原始
.mov
分割成帧并生成tfrecord来创建包含注释数据和图像数据的tfrecords。

我面临着同样的问题,这正是我提出您的问题的原因。CVAT似乎只导出注释数据,您负责提取图像数据。至少这是我从我的实验中收集到的,并且文档中缺少关于导出从视频中提取的图像数据的信息。据我所知,如果你有帧号和视频文件,就有足够的依据了——只需打开视频,提取帧,并将它们作为图像数据保存到TFRecord中。WCGW,对吗?祝你好运如果你解决了这个问题,请在这里发布代码。顺便说一句,如果你是Python程序员,这里有一些简单的OpenCV代码用于从视频中获取帧:。假设您知道哪个帧与哪个注释对应,那么将这些数据推送到TFRecord中应该是相当直接的。我最终使用ffmpeg进行拆分,导出到Coco json,用文件路径替换帧编号,然后转换到TFRecord它的文档不是特别完整,但显然,您可以从CVAT的RESTAPI中获取帧数据。向端点发送请求
/api/v1/tasks//frames/
返回帧的图像数据。您可以通过响应
/api/v1/tasks/
中的
start\u frame
stop\u frame
键获得每个任务中的帧数。不过,您必须自己组合注释和图像。如果有帮助的话,我可以用代码发布答案(一旦我弄明白了…)。