3.2 ThunderNet思考

1 设计思想

ThunderNet的优化目标是二阶段检测器中计算开销大的结构。

  • 在backbone部分,设计了轻量级网络SNet;
  • 在detection部分,借鉴Light-Head R-CNN的思路,并进一步压缩RPN和R-CNN子网络。
    为了避免性能的衰退,设计了2个高效的结构CEM和SAM来改善性能。

2 网络架构

图1 ThunderNet网络架构

ThunderNet的输入是分辨率的图像。

  • Backbone部分,采用SNet,SNet基于Shuffle Net V2修改得到的。
  • Detection部分,利用了压缩的RPN网络,从Light-Head R-CNN的轻量化head方法,来提高计算效率。
    • Context Enhancement Module(CEM),整合局部和全部特征增强网络特征表达能力。
    • Spatial Attension Module(SAM),引入来自RPN的前后景信息用于优化特征分布。

3 实现

backbone部分:

  1. 输入图像的分辨率应该和骨干网络的能力相匹配。
  2. 骨干网络需要利用深层语义信息和浅层高分辨信息。

考虑到ShuffleNet V1/V2限制了感受野,ShuffleNet V2和MobileNet V2缺乏浅层特征,Xception在算力低的情况下缺乏深层特征。作者对ShuffleNet V2进行了改进,这里的backbone网络称为SNet(为了检测目的单独设计)。

图2 SNet的网络结构

SNet49用于更快的推理,SNet535用于更好的精度,SNet146用于更好的速度/精度权衡。

detection部分:
为了与backbone网络匹配,作者改进了light-head R-CNN的head部分,主要设计了两个模块。

  1. Context Enhancement Module(CEM)。
图3 Context Enhancement Module

CEM合并三个尺度的特征图。

  • 尺度一:C4特征图上应用积以将通道数量压缩为
  • 尺度二:C5进行上采样 + C5特征图上应用卷积以将通道数量压缩为
  • 尺度三:Cglb进行Broadcast + Cglb特征图上应用卷积以将通道数量压缩为
  1. Spatial Attension Module(SAM)
    思想:使用来自RPN学习到的知识来细化特征图的特征分布。

其中是一个尺度变换,用来匹配两组特征图中的通道数。

图4 SAM结构

4 性能分析

图5 VOC2007上的性能
图6 COCO数据集上的性能

5 总结

本文首先介绍了ThunderNet的思想,然后简介了ThunderNet的网络结构,以及重点改进的CEM和SAM结构,最后给出了在VOC2007和COCO数据集上的性能比较。

你可能感兴趣的:(3.2 ThunderNet思考)