Image processing 如何在对象定位中执行数据扩充

Image processing 如何在对象定位中执行数据扩充,image-processing,conv-neural-network,object-detection,Image Processing,Conv Neural Network,Object Detection,为分类任务执行数据扩充很容易,因为大多数变换不会改变图像的地面真值标签 但是,在对象定位的情况下: 边界框的位置相对于已进行的裁剪 可能存在这样的情况,即边界框仅部分位于裁剪窗口中,在这种情况下,我们是否执行某种剪裁 还有一种情况是,裁剪中不包括对象边界框,我们是否在训练期间丢弃这些示例 我无法理解在对象定位中如何处理此类情况。大多数论文建议使用多尺度训练,但没有解决这些问题。增强方法必须改变边界框的内容。在颜色增强的情况下,像素分布将发生变化,边界框的坐标不会发生变化。但在几何增强(如裁剪或缩

为分类任务执行数据扩充很容易,因为大多数变换不会改变图像的地面真值标签

但是,在对象定位的情况下:

  • 边界框的位置相对于已进行的裁剪
  • 可能存在这样的情况,即边界框仅部分位于裁剪窗口中,在这种情况下,我们是否执行某种剪裁
  • 还有一种情况是,裁剪中不包括对象边界框,我们是否在训练期间丢弃这些示例

  • 我无法理解在对象定位中如何处理此类情况。大多数论文建议使用多尺度训练,但没有解决这些问题。

    增强方法必须改变边界框的内容。在颜色增强的情况下,像素分布将发生变化,边界框的坐标不会发生变化。但在几何增强(如裁剪或缩放)的情况下,不仅会影响像素分布,还会影响边界框的坐标。这些更改应该保存在注释文件中,以便算法能够读取


    自定义脚本是解决此问题的常用方法。但是,在我的存储库中,我有一个库可以帮助您。这里是链接。有了这个库,您可以执行我前面描述的操作。

    您知道这是如何完成的吗?我觉得这很有帮助