图像识别技术与应用课后总结(18)

·YOLO-V3

图像识别技术与应用课后总结(18)_第1张图片

RetinaNet系列,YOLO-V3在不同变体(如YOLOV3-320、YOLOV3-416等 )下,在推理时间和精度上有不同的表现,展示了其在速度和准确性上的平衡。

 YOLO-V3的改进点

网络结构:相比之前版本,YOLO-V3的网络结构进行了优化,使其更适合小目标检测。

 特征处理:对特征的处理更加细致,通过融入多持续特征图信息来预测不同规格的物体。

 先验框:先验框更加丰富,有3种scale(尺度),每种scale有3个规格,总共9种先验框,有助于更准确地检测目标。

 softmax改进:对softmax进行了改进,使其能够处理多标签任务的预测。

多scale设计

图像识别技术与应用课后总结(18)_第2张图片

 为了检测不同大小的物体,YOLO-V3设计了3个scale。

经过YOLOv3网络后,输出3个不同尺度(Scale 1、Scale 2、Scale 3 )的3D张量(Predicted 3D tensor),每个张量包含3个边界框(Box1、Box2、Box3),以此来检测不同大小的目标物体。

·scale变换经典方法

图像识别技术与应用课后总结(18)_第3张图片

 第一组图对比了图像金字塔和单一输入两种方式。左图的图像金字塔是将图像构建成不同分辨率的层级结构,每个层级分别进行预测;右图的单一输入则是仅对单一分辨率的图像进行预测。

第二组图展示了对特征图的不同利用方式。左图是对不同的特征图分别进行利用并预测;右图是先将不同的特征图融合,再基于融合后的特征图进行预测 。

残差连接-为了更好的特征

如今大多数网络架构都采用了残差连接方法。

YOLO-V3中也借鉴了ResNet的思想,通过堆叠更多的层来进行特征提取。残差连接的公式H(x)=F(x)+x 

核心网络架构

网络组成:YOLO的核心网络架构没有池化层和全连接层,全部采用卷积层,这种设计能更灵活地提取特征。

下采样方式:通过步长(stride)为2来实现下采样,以此改变特征图的尺寸。

 多尺度检测:延续之前提到的,保留3种scale(尺度)进行多尺度检测,并且配备了更多的先验框,以适应不同大小的目标。

先验框设计

数量变化:相较于YOLO-V2选择5个先验框,YOLO-V3中先验框数量增加到9种。

不同尺度的特征图对应不同尺寸的先验框。13×13特征图上有较大尺寸的先验框,适合检测大目标;26×26特征图上的先验框尺寸适中;52×52特征图上是较小尺寸的先验框,用于检测小目标。表格中也对各特征图的感受野和先验框尺寸进行了对应展示。

softmax层替代

在物体检测任务中,一个物体可能具有多个标签,传统的softmax函数无法很好地处理这种情况。因此,YOLO-V3使用logistic激活函数替代softmax层,它能够对每个类别分别进行“是/不是”的预测,通过交叉熵损失(Cross Entropy)来衡量预测值(\hat{y})与真实值(y)之间的差异,优化模型的检测效果。

 

你可能感兴趣的:(人工智能)