Validation 每个图像中都有大量对象实例的小数据集能否用于对象检测/分割培训?

Validation 每个图像中都有大量对象实例的小数据集能否用于对象检测/分割培训?,validation,machine-learning,computer-vision,training-data,semantic-segmentation,Validation,Machine Learning,Computer Vision,Training Data,Semantic Segmentation,例如,如果我试图在一张“Where's Waldo”图像中检测(并分割)人(每张图像中有数百人),并根据他们穿的衬衫的颜色给每个人贴上标签,是否需要一个小数据集(总共10-100张图像用于培训和验证)因为每个图像中都有这么多“对象”的实例(假设我使用COCO预先训练的权重),所以这就足够了吗?对于这些情况,拥有一个大数据集(>1000张图像)是否至关重要(假设您使用的是Mask R-CNN之类的检测分割算法) 从另一个角度看问题: 更重要的是,你训练分割算法的图像数量,或者整个数据集范围内可检测

例如,如果我试图在一张“Where's Waldo”图像中检测(并分割)人(每张图像中有数百人),并根据他们穿的衬衫的颜色给每个人贴上标签,是否需要一个小数据集(总共10-100张图像用于培训和验证)因为每个图像中都有这么多“对象”的实例(假设我使用COCO预先训练的权重),所以这就足够了吗?对于这些情况,拥有一个大数据集(>1000张图像)是否至关重要(假设您使用的是Mask R-CNN之类的检测分割算法)

从另一个角度看问题:


更重要的是,你训练分割算法的图像数量,或者整个数据集范围内可检测对象的实例数量?

这是一个好问题。如果你把这张照片放在一个基于颜色的分割(加上在上面的聚类以检测“对象”),你可能会得到更少的图像,因为这些聚类(“人”)通常是不同的


我还建议合并先验知识,而不是仅仅输入数据(因为数据较少)。如何使用高斯混合模型进行基于颜色的分割?像增量GMMs这样的集群技术是如何工作的?如果这些都不起作用,你可以尝试将它们与深度学习技术结合起来。一般来说,更少的数据=包含完成工作的先验知识

如果这不是一个基于颜色的分割问题,你还会建议合并先验知识吗?如果可能,合并一些先验知识是获得解决方案的好方法。如果这是一个研究项目,你试图在不考虑先验知识的情况下得出一个解决方案,那么,这是一个完全不同的游戏。同时考虑到你的数据较少,合并先验知识也不是一个坏方法。作为替代方案,您可以使用您拥有的少量(ish)数据点进行数据扩充,并查看网络是否至少超出了训练数据。然后你可以看到训练它所需的数据是多么少。