Faster RER-CNN 论文笔记

《Faster RER-CNN: application to the detection of vehicles in aerial images》

  • arXiv:https://arxiv.org/abs/1809.07628

解决什么问题

目标检测(Object Detection)是一个宽泛、通用的任务,旨在检测"万物"。但实际应用上,我们只需要检测部分物体即可。如常见的车牌检测、人脸检测和场景文字检测等。

如果直接将经典的目标检测算法(如Faster R-CNN、YOLO和SSD等)应用在指定任务上,比如利用pre-trained的网络对指定数据集进行fine-tune,一般也可以获得较好的mAP。但这里只是凑合解决,并不够完美契合。

本文要解决的问题就是在航空遥感图像(aerial image)上检测"小"且"旋转"的车辆。

  • "小"是相对的,是指该物体在整幅图像中的相对大小。其实类似于小目标检测问题。
  • "旋转"是指物体具体方向角度,不是四边绝对垂直的边界框,而是带有旋转角度的边界框(但相对垂直)。

看不懂我的描述?没关系,看下面的图示就知道了。常规的BBS(bounding boxes)已经不能满足于这项任务了,必须设计一种算法检测出带角度的BBS,其实后者计算的区域和原物体更加吻合,冗余信息更少(嘻嘻,冗余信息最少的还是segmentation)。

注:其实刚开始看到这篇文章,我就想起了DOTA数据集和RRPN算法。感兴趣的童鞋,可以自行研究哈。

创新点

看Faster RER-CNN(Faster Rotation Equivariant Regions CNN)这个名字,就知道是基于Faster R-CNN进行了改进。

  1. 采用Faster R-CNN框架同时进行检测和方向预测(inference)
    • 带有方向的物体边界框(oriented detection boxes)
  2. 提出一种有效的计算旋转边界框IoU的方法

Faster RER-CNN借鉴了下面两篇优秀的文章中的思想,感兴趣的童鞋可以自行深入了解一下:

  • 《An end-to-end trainable scene text localization and recognition framework》

  • 《Arbitrary-oriented scene text detection via rotation proposals》

Faster RER-CNN

在正式介绍Faster RER-CNN算法之前,先简单回顾一下Faster R-CNN。

Faster R-CNN = RPN + Fast R-CNN

  • 待补充笔记

实验结果

使用VeDAI数据集进行训练,使用Munich数据集来验证模型。而且还使用了Google Earth数据集(还是用了数据增广算法)。

注意:Faster RER-CNN使用的是VGG16作为backbone。

使用两个评价度量:AP(Average Precision)和 recall。

在Recall方面,RER R-CNN+bbox-reg组合优于Faster R-CNN

在Munich3K、VeDAI SII和 GoogleEarth三个数据集中的检测图如下所示:

在VeDAI 数据集上,多个模型在AP和Recall评价标准中的结果如下所示:

思考

  • 待补充

你可能感兴趣的:(计算机视觉,学术,论文,目标检测,论文精读)