《Residual Bi-Fusion Feature Pyramid Network for Accurate Single-shot Object Detection》论文笔记

参考代码:无

1. 概述

导读:在检测任务中一般会引入FPN增强在不同尺度下网络的检测性能,但是只通过top-down的FPN网络是很难去重建由于特征图的漂移(水平或是垂直方向运动)在经过pooling操作(pooling不具有平移不变性)带来结果相差很大的问题(特别针对小目标),而且FPN带来的性能提升会在使用较多卷积层之后逐渐被稀释(卷积的平移不变形),进而会导致一些小目标定位性能降低。对此可以通过添加一个bottom-up的结构实现对特征图pooling经过操作之后带来的问题补偿,但是却需要消耗很多额外的资源。对此文章提出了残差特征金字塔(residual feature pyramid),通过深层和浅层特征的双向连接构建一个对大目标和小目标都高效且鲁棒的检测器。由于其中使用了残差连接,类比于ResNet文章的网络可以较容易地完成训练,该结构的移植性也很强,而且在添加更多网络层的时候其性能不会像传统FPN网络那样导致FPN带来的提升逐渐下降。

在检测网络中一般会使用FPN来增强网络的特征表达,但是FPN网路却对pooling操作(不具备平移不变性)对平移敏感性不足,这就导致其对于小目标就存在天然的劣势,一个解决办法是添加bottom-up的结构,但是这样会增加很多开销。对此文章通过在top-down的结构上添加一些增强语义特征的结构:残差特征金字塔和BFM模块,从而极大增强了网络语义信息的表达。

PS:这篇文章的方法在纸面上看起来很好,但是其实现的细节在文章中讲解的并不清楚,比如CORE模块中的reorganization operation具体是啥?BFM模块中的reshape操作怎么划分块儿的?这些都是值得考量的。而且文章存在较多前后矛盾的表达,不过文章整体可算作是从作者的角度去理解一下检测问题,或许对以后的工作有所启发也说不一定。

2. 方法设计

2.1 网络结构

FPN网络:
传统的FPN结构见下图所示:

你可能感兴趣的:(#,General,Object,Detection,Bi-Fusion)