5个常用的主干网络模型

5个常用的主干网络模型

在深度学习行业中,目标检测是一大类应用,网络主要由三部分结构组成,主干网络、颈部网络、检测头,它们在网络中分别扮演者提取特征、二次处理特征(一般是融合、多尺度提取)、提取目标信息(类别、置信度、坐标位置 )的功能。

本文介绍5种常用的主干网络模型和它们各自的应用。

VGG

出自:2014,牛津大学
架构特点:采用重复的3x3卷积核和2x2最大池化层堆叠
特征传递:通过连续小卷积核实现渐进式特征提取
优势:结构简单统一(未引入任何特殊的层),小卷积核组合可模拟大感受野,特征提取能力强
局限:参数量大(VGG16约1.38亿参数),全连接层占比超90%,易过拟合,计算成本高
激活函数:采用ReLU
典型变体:VGG16(13卷积层+3全连接)和VGG19(16卷积层+3全连接)
应用场景:早期目标检测框架(如Faster R-CNN)的基础骨干,现多用于迁移学习或特征提取
主要价值点:证明了增加网络深度可以在一定程度上提升网络的最终性能

现代改进:

  • 全连接层替换为全局平均池化(GAP)减少参数
  • 迁移学习中作为特征提取器冻结前10层

ResNet

出自:2016,微软
架构特点:引入残差连接(Shortcut Connection)解决梯度消失问题,核心单元为Bottleneck结构(1x1-3x3-1x1卷积组合)
优势:

  • 解决梯度消失与退化问题:通过跳跃连接将输入直接传递到输出,缓解梯度消失问题,使深层网络训练成为可能
  • 高效训练:Batch Normalization加速收敛,无需Dropout
  • 模块化设计:残差块可灵活堆叠,支持网络深度扩展(如ResNet-152甚至1202层)
  • 迁移学习能力强:预训练模型在多种视觉任务中表现优异
    局限:
  • 计算资源需求高:深层模型(如ResNet-152)需大量显存和训练时间
  • 小数据泛化能力有限:易过拟合,依赖大规模数据
  • 特征失真风险:跳跃连接需尺寸匹配,可能需额外卷积调整维度
    预激活结构:(BN-ReLU-Conv顺序)
    应用场景:
    ResNet-18/34:边缘设备实时检测(如无人机避障、工业缺陷检测)
    ResNet-50:服务器级通用检测(电商视觉搜索、遥感分类)
    ResNet-101/152:医疗影像分析、高精度遥感检测
    主要价值点:
  • 突破性深度:首次实现152层网络训练,ILSVRC竞赛多项冠军(分类/检测/分割)。
  • 跨领域适用性:从图像分类扩展到目标检测(Faster R-CNN)、语义分割(DeepLab)等。
  • 工业部署优化:支持TensorRT量化,适配移动端(如Jetson Nano)与服务器集群

Darknet

出自:2016
架构特点:实时检测(YOLO系列)专用骨干,CSPDarknet53采用跨阶段部分连接(CSP)和残差结构,包含53个卷积层,无全连接层
优势:
参数效率高(相比VGG减少90%参数)
支持Darknet框架原生加速,适合嵌入式部署
演进:
Darknet-19:YOLOv2骨干,含19个卷积层+5个池化层
CSPDarknet53:YOLOv4/v5骨干,引入CSP结构增强梯度流
应用场景:实时目标检测(自动驾驶、安防监控),典型帧率可达100FPS+

主要价值:

  • 支持YOLO系列算法实现100FPS+的检测速度
  • 纯C/CUDA编写,便于嵌入式部署(速度优势
  • DarkNet-53以53层卷积实现与ResNet-101/152相当的精度,但计算量减少30%以上,无全连接层
  • CSP结构:梯度分流减少重复计算

MobileNet

出自:2017,谷歌
架构特点:基于深度可分离卷积(Depthwise Separable Convolution),分解标准卷积为逐通道卷积+逐点卷积,V2/V3版本加入反向残差块和线性瓶颈
可调参数:

  • 宽度因子α(默认1.0)控制通道数
  • 分辨率因子ρ(默认224px)调整输入尺寸
    应用场景:
  • MobileNetV1:移动端实时分类(如相册自动 tagging)
  • MobileNetV2:轻量级目标检测(SSD-MobileNet组合)
  • MobileNetV3:端侧AI芯片部署(华为NPU适配)
    优势:
  • 计算量降至标准卷积的1/9(K=3时),参数量减少75%
  • 灵活适配不同硬件,支持动态调整α和ρ
    主要价值点:
  • 移动端高效推理:在ImageNet上Top-1准确率70%+时仅需300M FLOPs
  • 工业部署友好:TensorFlow Lite和CoreML原生支持,安卓/iOS无缝集成

ShuffleNet

出自:2017, 旷视
架构特点:通过分组卷积(Group Convolution) + 通道混洗(Channel Shuffle)实现组间信息交互,结合逐点群卷积降低计算量,V2版本优化内存访问成本
关键技术:

  • 分组卷积+通道置换矩阵
  • 多尺度特征融合结构
    性能对比:
  • ShuffleNetV1:ImageNet分类仅需40M FLOPs
  • ShuffleNetV2:实际推理速度比V1提升20%
    应用场景:
  • 超低功耗设备(智能门锁人脸识别)
  • 实时视频分析(手机AR特效)
    优势:
  • 极致轻量化:参数量<1M,适合10-150 MFLOPs计算预算
  • 硬件友好:优化内存访问,避免碎片操作,提升实际帧率
    主要价值点:
  • 移动端速度快:ShuffleNetV2在ARM设备达30FPS+,适用于资源敏感场景。
  • 工程应用:推动轻量网络实用化

总结

VGG证明深度堆叠,ResNet突破深度限制,Darknet优化实时性,MobileNet/ShuffleNet专攻速度与轻量化。

物极必反,不见出路(深度)就回头找出路(残差),网络设计也在轮回,最终走向了好用(效率优先)为先的“实用主义”之路上。

你可能感兴趣的:(网络,人工智能,深度学习)