大家好,欢迎来到《目标检测模块实践手册》系列的第一篇。从今天开始,我想以一种 “实践记录者” 的身份,和大家聊聊在目标检测任务中那些形形色色的模块。这些内容没有权威结论,更多的是我在实际操作中的一些尝试、发现和踩过的坑。至于这些模块在大家的具体网络应用中是否可行,还需要大家自己去验证,也非常期待能和大家交流不同的经验。
目标检测,简单来说,就是从输入的图像中,准确地找出我们感兴趣的目标,并用边界框把它们框出来,同时判断出这些目标属于什么类别。这个看似简单的过程,其实背后是一系列复杂操作的组合,而这些操作正是由一个个不同的模块来完成的。
我们可以把目标检测的流程想象成一条流水线,每个模块各司其职:
Backbone 的核心作用是将原始图像(比如(3, 640, 640)
的 RGB 图像)转化为包含语义信息的特征图。以 ResNet50 为例,它通过多个卷积层和池化层,逐步输出不同尺度的特征图(如(256, 80, 80)
、(512, 40, 40)
等)。这些特征图就像 “半成品零件”,是后续处理的基础。
代码片段:简化的 Backbone 结构
python
import torch
import torch.nn as nn
class SimpleBackbone(nn.Module):
def __init__(self):
super().__init__()
# 3层卷积,逐步缩小尺寸、增加通道数
self.layers = nn.Sequential(
nn.Conv2d(3, 64, 3, stride=2, padding=1), # (3,640,640)→(64,320,320)
nn.ReLU(),
nn.Conv2d(64, 128, 3, stride=2, padding=1), # (64,320,320)→(128,160,160)
nn.ReLU(),
nn.Conv2d(128, 256, 3, stride=2, padding=1) # (128,160,160)→(256,80,80)
)
def forward(self, x):
return self.layers(x) # 输出最终特征图
# 测试
x = torch.randn(1, 3, 640, 640) # 模拟输入图像
backbone = SimpleBackbone()
feat = backbone(x)
print(f"Backbone输出特征图尺寸: {feat.shape}") # torch.Size([1, 256, 80, 80])
Neck 的作用是对 Backbone 输出的多尺度特征进行融合。比如 Backbone 会输出(256,80,80)
(浅层,细节丰富)、(512,40,40)
(中层,语义中等)、(1024,20,20)
(深层,语义强)三种特征图,Neck 通过上采样、下采样等操作,让这些特征 “互补”。
代码片段:简化的 FPN(Neck 的一种)
python
class SimpleFPN(nn.Module):
def __init__(self):
super().__init__()
# 1x1卷积统一通道数
self.conv1 = nn.Conv2d(256, 128, 1)
self.conv2 = nn.Conv2d(512, 128, 1)
self.conv3 = nn.Conv2d(1024, 128, 1)
def forward(self, feat_small, feat_medium, feat_large):
# 深层特征上采样,与中层融合
feat_medium_up = nn.functional.interpolate(
self.conv3(feat_large), size=feat_medium.shape[2:], mode='bilinear'
) + self.conv2(feat_medium)
# 中层融合特征再上采样,与浅层融合
feat_small_up = nn.functional.interpolate(
feat_medium_up, size=feat_small.shape[2:], mode='bilinear'
) + self.conv1(feat_small)
return feat_small_up # 输出融合后的高分辨率特征图
# 测试
feat_small = torch.randn(1, 256, 80, 80) # 浅层特征
feat_medium = torch.randn(1, 512, 40, 40) # 中层特征
feat_large = torch.randn(1, 1024, 20, 20) # 深层特征
fpn = SimpleFPN()
fused_feat = fpn(feat_small, feat_medium, feat_large)
print(f"FPN输出特征图尺寸: {fused_feat.shape}") # torch.Size([1, 128, 80, 80])
Head 基于 Neck 输出的融合特征,预测目标的边界框(x,y,w,h)和类别。比如 YOLO 的 Head 会在特征图的每个网格点预测多个锚框,每个锚框包含位置和类别信息。
代码片段:简化的检测 Head
python
class SimpleHead(nn.Module):
def __init__(self, num_classes=80):
super().__init__()
self.num_classes = num_classes
# 预测框坐标和类别
self.conv = nn.Conv2d(128, 5 + num_classes, 3, padding=1) # 5=xywh+置信度
def forward(self, x):
# 输出形状: (b, 5+num_classes, h, w)
out = self.conv(x)
# 调整为(b, h*w, 5+num_classes),方便后续解析
return out.permute(0, 2, 3, 1).reshape(x.shape[0], -1, 5 + self.num_classes)
# 测试
head = SimpleHead(num_classes=80)
pred = head(fused_feat)
print(f"Head输出预测形状: {pred.shape}") # torch.Size([1, 80*80=6400, 85])
损失函数计算预测结果与真实标签的差距,指导网络参数更新。比如边界框回归常用 CIoU Loss,类别预测常用 CrossEntropy Loss。
代码片段:简化的损失函数组合
python
def bbox_loss(pred_box, true_box):
# 简化版CIoU Loss(实际实现需计算交并比、中心点距离等)
return torch.mean(torch.abs(pred_box - true_box))
def cls_loss(pred_cls, true_cls):
# 类别交叉熵损失
return nn.CrossEntropyLoss()(pred_cls, true_cls)
# 测试
pred_box = pred[..., :4] # 预测框坐标
pred_cls = pred[..., 5:] # 预测类别
true_box = torch.randn(1, 6400, 4) # 真实框坐标
true_cls = torch.randint(0, 80, (1, 6400)) # 真实类别
total_loss = bbox_loss(pred_box, true_box) + cls_loss(pred_cls, true_cls)
print(f"总损失值: {total_loss.item()}")
可能有同学会问,现在已经有很多成熟的目标检测框架了,比如 YOLO、Faster R-CNN、SSD 等,我们直接用这些框架不就行了,为什么还要关注 “模块” 呢?
其实,现有框架本质上是模块的组合(就像搭积木)。灵活替换模块,能让模型适配不同场景:
在接下来的系列中,我会按 “模块类型” 逐步分享实践经验,每篇都会包含:
具体内容包括: