Machine learning 为什么旋转不变神经网络不用于热门比赛的优胜者?

Machine learning 为什么旋转不变神经网络不用于热门比赛的优胜者?,machine-learning,computer-vision,neural-network,deep-learning,conv-neural-network,Machine Learning,Computer Vision,Neural Network,Deep Learning,Conv Neural Network,众所周知,现代最流行的CNN(卷积神经网络):VGG/ResNet(FasterRCNN)、SSD、YLO、YLO v2、DenseBox、DetectNet-不是旋转不变的: 众所周知,有几种具有旋转不变性目标检测的神经网络: 旋转不变新感受器2006(): 学习用于纹理分类的旋转不变卷积滤波器2016(): RIFD-CNN:用于目标检测的旋转不变和Fisher判别卷积神经网络2016(): 卷积神经网络中的编码不变性2014() 用于星系形态预测的旋转不变卷积神经网络(): 学习旋转不变卷

众所周知,现代最流行的CNN(卷积神经网络):VGG/ResNet(FasterRCNN)、SSD、YLO、YLO v2、DenseBox、DetectNet-不是旋转不变的:

众所周知,有几种具有旋转不变性目标检测的神经网络:

  • 旋转不变新感受器2006():

  • 学习用于纹理分类的旋转不变卷积滤波器2016():

  • RIFD-CNN:用于目标检测的旋转不变和Fisher判别卷积神经网络2016():

  • 卷积神经网络中的编码不变性2014()

  • 用于星系形态预测的旋转不变卷积神经网络():

  • 学习旋转不变卷积神经网络用于VHR光学遥感图像中的目标检测2016:

  • 我们知道,在诸如image-NET、MSCOCO、PASCAL VOC等图像检测竞赛中,使用了网络集成(同时使用了一些神经网络)。或单个网络中的网络集成,如ResNet()

    但是,像MSRA这样的获奖者是否使用旋转不变网络集成,如果没有,为什么?为什么在集成中,附加的旋转不变网络不能提高检测某些对象(如飞机对象)的准确性?哪些图像是在不同的旋转角度下完成的

    它可以是:

    • 从地面拍摄的飞机物体

    • 或从空中拍摄的地面物体


    为什么旋转不变神经网络没有在热门的目标检测比赛中获奖?

    图像识别的最新进展主要是通过将方法从经典的特征选择-浅层学习算法改为无特征选择-深度学习算法而取得的,这不仅仅是由于卷积神经网络的数学性质。是的-当然,他们能够使用较少的参数捕获相同的信息部分是由于他们的平移不变性,但最近的研究表明,这不是理解他们成功的关键

    在我看来,这一成功背后的主要原因是开发了比数学上更精确的学习算法更快的学习算法,这就是为什么较少关注开发另一种性质不变的神经网络的原因


    当然,旋转不变性根本没有被跳过。这部分是通过数据扩充实现的,在数据扩充中,您将稍微更改(例如,旋转或重新缩放)的图像放入数据集-使用相同的标签。正如我们在本文中所读到的,这两种方法(更多的结构与更少的结构+数据扩充)或多或少是等效的。(第5.5.3章,标题为:不变性)

    我还想知道,为什么社区或学者没有把太多的注意力放在@Alex上

    在我看来,一个可能的原因是许多场景不需要这个属性,特别是对于那些流行的比赛。正如Rob提到的,一些自然照片已经以统一的水平(或垂直)方式拍摄。例如,在人脸检测中,许多作品将对齐图片,以确保人们在向任何CNN模特喂食之前都站在地球上。老实说,这是完成这项任务最便宜、最有效的方法

    然而,现实生活中确实存在一些场景,需要具有旋转不变性。所以我又有了一个猜测:从那些专家(或研究人员)的角度来看,这个问题并不难。至少我们可以使用数据扩充来获得一些旋转不变量


    最后,非常感谢你对论文的总结。我又添加了一篇论文,其他人也发表了这篇文章。

    目标检测主要是由世界著名的目标检测基准(如PASCAL-VOC和MS-COCO)中检测算法的成功推动的,这些基准是以对象为中心的数据集,其中大多数对象是垂直的(盆栽植物、人类、马等)因此,使用左右翻转来增加数据通常就足够了(据我们所知,使用旋转图像(如倒置翻转)来增加数据甚至可能会影响检测性能)。
    每年,整个社区都会采用获胜方案的基本算法结构,并以此为基础进行构建(为了证明这一点,我有点夸张,但不是太夸张)

    有趣的是,其他不太广为人知的主题,如航空图像中的定向文本检测和定向车辆检测,都需要旋转不变特征和旋转等变检测管道(如Cheng you提到的两篇文章)

    如果你想找到这方面的文献和代码,你需要深入这两个领域。我已经可以给你一些建议,比如航空图像的挑战或者定向文本检测的挑战

    正如@Marcin Mozejko所说,CNN本质上是平移不变的,而不是旋转不变的。如何结合完美的旋转不变性是一个开放的问题,尽管看起来很有希望,但涉及它的少数文章尚未成为标准。 我个人最喜欢的探测方法是最近提出的对更快的R-CNN的改进

    我希望,一旦人们厌倦了MS-COCO和VOC,就会越来越多地研究这一研究方向


    你可以试着使用一个在MS-COCO上训练过的最先进的检测器,看看它如何执行wrt旋转测试图像,在我看来,它远不是旋转不变的。

    在许多比赛中,人们分析每一类及其可能的旋转。天空中飞机的图片可以有各种可能的旋转,但狗奔跑的水平图片却不能。并且,它们通过每一个可能的旋转从原始图像生成新的训练图像。也许这比旋转不变算法更精确。A.