《YOLO小目标检测》专栏介绍 & CSDN独家改进创新实战&专栏目录

 Yolo小目标检测独家首发创新(原创),适用于Yolov5、Yolov7、Yolov8等各个Yolo系列,专栏文章提供每一步步骤和源码,带你轻松实现小目标检测涨点

重点:通过本专栏的阅读,后续你可以结合自己的小目标检测数据集,在网络不同位置(Backbone、head、detect、loss等)进行魔改,实现小目标涨点和创新!!!

专栏介绍:

✨✨✨解决小目标检测难点并提升小目标检测性能;

小目标、遮挡物性能提升和创新;

工业界小目标检测性能提升和部署可行性;

持续更新中,定期更新不同数据集涨点情况;

layers  parameters GFLOPs kb  mAP50
yolov8 168 3005843 8.1 6103 0.755
Wasserstein loss 168 3005843 8.1 6103 0.784
yolov8_smallob 207 2921172 12.2 6137 0.878
yolov8_SEAM 219 3109331 8.3 6331 0.785
yolov8_SPD 174 3598739 49.2 7394 0.875
yolov8_EVC 217 7293523 11.5 14513 0.779
yolov8_BiFPN 168 3005849 8.1 6104 0.766
yolov8_ContextAggregation 195 3008092 8.1 6121 0.759
yolov8_EMA 192 3006739 8.1 6114 0.766
yolov8_DCNV3 264 2892317 7.9 5892 0.765
yolov8_MCALayer 209 2545659 7.2 5194 0.769
yolov8_BiFormerBlock 204 3356179 22.4 6800 0.758
yolov8_LSKblockAttention 201 3343333 8.7 6784 0.775
yolov8_GPFN 216 2986131 8.1 6079 0.766
yolov8_C2f_Pconv 177 2716883 7.6 5537 0.758
yolov8_ODConv 179 3012110 7.9 6121 0.76
yolov8_TripletAttention 201 3006443 8.2 6120 0.79
yolov8_ChannelAttention 171 3137427 7.8 6428 0.815
yolov8_DySnakeConv 229 3356287 8.5 6822 0.77
yolov8_MultiSEAM 325 5742291 11711 0.87
yolov8_MobileViTAttention 241 3957659 11.1 7992 0.799
yolov8-RFA 258 3019439 8.2 6166 0.765
yolov8_BasicRFB 303 3440235 8.9 7040 0.762
yolov8_RepViTBlock 186 3338387 7.9 6771 0.791
yolov8-goldyolo 359 6015123 11.9 12123 0.768
yolov8_DualAttention 186 4604819 8.3 9236 0.766

《YOLO小目标检测》专栏介绍 & CSDN独家改进创新实战&专栏目录_第1张图片

目录

1.小目标检测介绍

1.1 小目标定义

1.2 难点

2. 本专栏小目标数据集

3.小目标专栏难点优化方向

3.1 合理的数据增强

3.2 网络多尺度

 3.2.1 多头检测器

 3.2.2 BiFPN高效双向跨尺度连接和加权特征融合

3.2.3  小目标到大目标一网打尽,轻骨干重Neck的轻量级目标检测器GiraffeDet

3.2.4 多分支卷积模块RFB

3.2.5 GOLD-YOLO,遥遥领先

3.3 loss优化

3.3.1 Wasserstein Distance Loss

3.4  注意力机制

3.4.1SEAM注意力机制

3.4.2 即插即用的多尺度融合模块EVC

 3.4.3 微小目标检测的上下文增强和特征细化网络ContextAggregation

3.4.4 EMA跨空间学习的高效多尺度注意力 | ICASSP2023

3.4.5 动态稀疏注意力BiFormer | CVPR 2023 

3.4.6  LSKblockAttention | ICCV 2023 

3.4.7 TripletAttention注意力

3.4.8  通道优先卷积注意力(CPCA)| 中科院 2023.6

3.4.8  多尺度MultiSEAM

3.4.9 轻量级注意力MobileViTAttention | ECCV2022 

3.4.10 感受野注意力卷积运算

3.4.11 Dual-ViT:一种多尺度双视觉Transformer

3.5 卷积变体

3.5.1 SPD-Conv

3.5.2 DCNv3可形变卷积 | CVPR2023

3.5.3 新的Partial卷积(PConv) | CVPR2023 FasterNet 

3.5.4 ODConv | ICLR 2022

3.5.5 动态蛇形卷积(Dynamic Snake Convolution) | ICCV2023

番外篇:工业小目标缺陷检测

1.1 动态蛇形卷积(Dynamic Snake Convolution),实现暴力涨点 | ICCV2023

1.2 微小目标检测可能存在检测能力不佳的现象,添加一个微小物体的检测头

1.3 SPD-Conv,低分辨率图像和小物体涨点明显

1.4大缺陷小缺陷一网打尽的轻量级目标检测器GiraffeDet

 1.5 多检测头结合小缺陷到大缺陷一网打尽的轻量级目标检测器GiraffeDet

 1.6 Wasserstein Distance Loss,助力工业缺陷检测

1.7 工业部署级解决方案: 多头检测器+小缺陷到大缺陷一网打尽的+Wasserstein Distance Loss


1.小目标检测介绍

1.1 小目标定义

1)以物体检测领域的通用数据集COCO物体定义为例,小目标是指小于32×32个像素点(中物体是指32*32-96*96,大物体是指大于96*96);
2)在实际应用场景中,通常更倾向于使用相对于原图的比例来定义:物体标注框的长宽乘积,除以整个图像的长宽乘积,再开根号,如果结果小于3%,就称之为小目标;

《YOLO小目标检测》专栏介绍 & CSDN独家改进创新实战&专栏目录_第2张图片

1.2 难点

1)包含小目标的样本数量较少,这样潜在的让目标检测模型更关注中大目标的检测;

2)由小目标覆盖的区域更小,这样小目标的位置会缺少多样性。我们推测这使得小目标检测的在验证时的通用性变得很难;

《YOLO小目标检测》专栏介绍 & CSDN独家改进创新实战&专栏目录_第3张图片

3)anchor难匹配问题。这主要针对anchor-based方法,由于小目标的gt box和anchor都很小,anchor和gt box稍微产生偏移,IoU就变得很低,导致很容易被网络判断为negative sample;

4)它们不仅仅是小,而且是难,存在不同程度的遮挡、模糊、不完整现象;

等等难点

参考论文:http://sjcj.nuaa.edu.cn/sjcjycl/article/html/202103001  

2. 本专栏小目标数据集

数据集下载地址:GitHub - YimianDai/sirst: A dataset constructed for single-frame infrared small target detection

Single-frame InfraRed Small Target 

数据集大小:427张,进行3倍数据增强得到1708张,最终训练集验证集测试集随机分配为8:1:1

《YOLO小目标检测》专栏介绍 & CSDN独家改进创新实战&专栏目录_第4张图片

3.小目标专栏难点优化方向

3.1 合理的数据增强

  • 将小目标在同一张图像中多拷贝几次;增加了匹配到小目标GT的anchor的数量;如涂鸦式增强

《YOLO小目标检测》专栏介绍 & CSDN独家改进创新实战&专栏目录_第5张图片

3.2 网络多尺度

         通过P2层特征引出了新的检测头.P2层检测头分辨率为160×160像素, 相当于在主干网络中只进行了2次下采样操作, 含有目标更为丰富的底层特征信息. 颈部网络中自上而下和自下而上得到的两个P2层特征与主干网络中的同尺度特征通过concat形式进行特征融合, 输出的特征为3个输入特征的融合结果, 这样使得P2层检测头应对微小目标时, 能够快速有效的检测. 《YOLO小目标检测》专栏介绍 & CSDN独家改进创新实战&专栏目录_第6张图片

 3.2.1 多头检测器

 亲测在红外弱小目标检测涨点明显,[email protected] 从0.755提升至0.878

Yolov8红外弱小目标检测(3):多头检测头提升红外弱小目标检测精度_AI小怪兽的博客-CSDN博客

《YOLO小目标检测》专栏介绍 & CSDN独家改进创新实战&专栏目录_第7张图片

layers  parameters GFLOPs kb  mAP50
yolov8 168 3005843 8.1 6103 0.755
yolov8_smallob 207 2921172 12.2 6137 0.878

 3.2.2 BiFPN高效双向跨尺度连接和加权特征融合

 BiFPN 的主要思想:高效双向跨尺度连接和加权特征融合 

《YOLO小目标检测》专栏介绍 & CSDN独家改进创新实战&专栏目录_第8张图片

        文中提出了BiFPN和联合缩放方法(Compound Scaling),BiFPN考虑到不同特征融合对于输出特征的重要性;联合缩放方法(Compound Scaling) 综合考虑图像输入分辨率、网络宽度和深度这些因素,权衡了准确率和效率。如图所示为本文的整体结构图:

《YOLO小目标检测》专栏介绍 & CSDN独家改进创新实战&专栏目录_第9张图片

Yolov8红外弱小目标检测(7):BiFPN高效双向跨尺度连接和加权特征融合,助力小目标检测_AI小怪兽的博客-CSDN博客

BiFPN |   亲测在红外弱小目标检测涨点,[email protected] 从0.755提升至0.766 

layers  parameters GFLOPs kb  mAP50
yolov8 168 3005843 8.1 6103 0.755
yolov8_BiFPN 168 3005849 8.1 6104 0.766

3.2.3  小目标到大目标一网打尽,轻骨干重Neck的轻量级目标检测器GiraffeDet

 本文是阿里巴巴在目标检测领域的工作(已被ICLR2022接收),提出了一种新颖的类“长颈鹿”的GiraffeDet架构,它采用了轻骨干、重Neck的架构设计范式。所提GiraffeDet在COCO数据集上取得了比常规CNN骨干更优异的性能,取得了54.1%mAP指标,具有更优异的处理目标大尺度变化问题的能力。

         本文提出了GiraffeDet用于高效目标检测,giraffe包含轻量space-to-depth chain、Generalized-FPN以及预测网络

        GFPN |   亲测在红外弱小目标检测涨点,[email protected] 从0.755提升至0.766

layers  parameters GFLOPs kb  mAP50
yolov8 168 3005843 8.1 6103 0.755
yolov8_GPFN 216 2986131 8.1 6079 0.766

Yolov8小目标检测(14):小目标到大目标一网打尽,轻骨干重Neck的轻量级目标检测器GiraffeDet_AI小怪兽的博客-CSDN博客

3.2.4 多分支卷积模块RFB

    受启发于人类视觉的Receptive Fields结构,本文提出RFB,将RFs的尺度、离心率纳入考虑范围,使用轻量级主干网也能提取到高判别性特征,使得检测器速度快、精度高;具体地,RFB基于RFs的不同尺度,使用不同的卷积核,设计了多分支的conv、pooling操作(makes use of multi-branch pooling with varying kernels),并通过虫洞卷积(dilated conv)来控制感受野的离心率,最后一步reshape操作后,形成生成的特征《YOLO小目标检测》专栏介绍 & CSDN独家改进创新实战&专栏目录_第10张图片

 《YOLO小目标检测》专栏介绍 & CSDN独家改进创新实战&专栏目录_第11张图片

 [email protected] 从原始0.755提升至0.762

layers  parameters GFLOPs kb  mAP50
yolov8 168 3005843 8.1 6103 0.755
yolov8_BasicRFB 303 3440235 8.9 7040 0.762

 Yolov8小目标检测(23):多分支卷积模块RFB,扩大感受野提升小目标检测精度_AI小怪兽的博客-CSDN博客

3.2.5 GOLD-YOLO,遥遥领先

链接:https://arxiv.org/pdf/2309.11331.pdf 

传统YOLO的问题

在检测模型中,通常先经过backbone提取得到一系列不同层级的特征,FPN利用了backbone的这一特点,构建了相应的融合结构:不层级的特征包含着不同大小物体的位置信息,虽然这些特征包含的信息不同,但这些特征在相互融合后能够互相弥补彼此缺失的信息,增强每一层级信息的丰富程度,提升网络性能。

原始的FPN结构由于其层层递进的信息融合模式,使得相邻层的信息能够充分融合,但也导致了跨层信息融合存在问题:当跨层的信息进行交互融合时,由于没有直连的交互通路,只能依靠中间层充当“中介”进行融合,导致了一定的信息损失。之前的许多工作中都关注到了这一问题,而解决方案通常是通过添加shortcut增加更多的路径,以增强信息流动。

 

提出了一种全新的信息交互融合机制:信息聚集-分发机制(Gather-and-Distribute Mechanism)。该机制通过在全局上融合不同层次的特征得到全局信息,并将全局信息注入到不同层级的特征中,实现了高效的信息交互和融合。在不显著增加延迟的情况下GD机制显著增强了Neck部分的信息融合能力,提高了模型对不同大小物体的检测能力。 

 在Gold-YOLO中,针对模型需要检测不同大小的物体的需要,并权衡精度和速度,我们构建了两个GD分支对信息进行融合:低层级信息聚集-分发分支(Low-GD)和高层级信息聚集-分发分支(High-GD),分别基于卷积和transformer提取和融合特征信息。

 [email protected] 从原始0.755提升至0.768

《YOLO小目标检测》专栏介绍 & CSDN独家改进创新实战&专栏目录_第12张图片

layers  parameters GFLOPs kb  mAP50
yolov8 168 3005843 8.1 6103 0.755
yolov8-goldyolo 359 6015123 11.9 12123 0.768
YOLOv8-goldYOLO summary: 359 layers, 6015123 parameters, 0 gradients, 11.9 GFLOPs
                 Class     Images  Instances      Box(P          R      mAP50  mAP50-95): 100%|██████████| 3/3 [00:04<00:00,  1.41s/it]
                   all        171        199      0.871      0.679      0.768      0.461
Speed: 0.3ms preprocess, 3.9ms inference, 0.0ms loss, 1.6ms postprocess per image

Yolov8小目标检测(24):Gold-YOLO,遥遥领先,超越所有YOLO | 华为诺亚NeurIPS23_AI小怪兽的博客-CSDN博客

3.3 loss优化

3.3.1 Wasserstein Distance Loss

1)分析了 IoU 对微小物体位置偏差的敏感性,并提出 NWD 作为衡量两个边界框之间相似性的更好指标;

2)通过将NWD 应用于基于锚的检测器中的标签分配、NMS 和损失函数来设计强大的微小物体检测器;

3)提出的 NWD 可以显着提高流行的基于锚的检测器的 TOD 性能,它在 AI-TOD 数据集上的 Faster R-CNN 上实现了从 11.1% 到 17.6% 的性能提升;
 


 

Wasserstein Distance Loss |   亲测在红外弱小目标检测涨点明显,[email protected] 从0.755提升至0.784 

Yolov8红外弱小目标检测(2):Wasserstein Distance Loss,助力小目标涨点_AI小怪兽的博客-CSDN博客

layers  parameters GFLOPs kb  mAP50
yolov8 168 3005843 8.1 6103 0.755
Wasserstein loss 168 3005843 8.1 6103 0.784

3.4  注意力机制

3.4.1SEAM注意力机制

SEAM注意力机制,提升遮挡小目标检测性能

《YOLO小目标检测》专栏介绍 & CSDN独家改进创新实战&专栏目录_第13张图片

 即不同小目标之间的遮挡,以及其他物体对小目标的遮挡。前者使得检测精度对 NMS 阈值非常敏感,从而导致漏检。作者使用排斥损失进行小目标检测,它惩罚预测框转移到其他真实目标,并要求每个预测框远离具有不同指定目标的其他预测框,以使检测结果对 NMS 不太敏感。后者导致特征消失导致定位不准确,设计了注意力模块 SEAM 来增强人脸特征的学习。

Yolov8红外弱小目标检测(5):SEAM注意力机制,提升遮挡小目标检测性能_AI小怪兽的博客-CSDN博客

SEAM |   亲测在红外弱小目标检测涨点明显,[email protected] 从0.755提升至0.785 

layers  parameters GFLOPs kb  mAP50
yolov8 168 3005843 8.1 6103 0.755
yolov8_SEAM 219 3109331 8.3 6331 0.785

3.4.2 即插即用的多尺度融合模块EVC

《YOLO小目标检测》专栏介绍 & CSDN独家改进创新实战&专栏目录_第14张图片

 如图2所示,CFP主要由以下部分组成:输入图像、用于提取视觉特征金字塔的CNN主干、提出的显式视觉中心(EVC)、提出的全局集中规则(GCR)以及用于目标检测的去解耦head网络(由分类损失、回归损失和分割损失组成)。在图2中,EVC和GCR在提取的特征金字塔上实现。

   提出的EVC主要由两个并行连接的块组成,其中使用轻量级MLP来捕获顶级特征的全局长期依赖性(即全局信息)。

Yolov8红外弱小目标检测(6):即插即用的多尺度融合模块EVC,即插即用,助力小目标检测_AI小怪兽的博客-CSDN博客

EVC|   亲测在红外弱小目标检测涨点明显,[email protected] 从0.755提升至0.779 

layers  parameters GFLOPs kb  mAP50
yolov8 168 3005843 8.1 6103 0.755
yolov8_EVC 217 7293523 11.5 14513 0.779

 3.4.3 微小目标检测的上下文增强和特征细化网络ContextAggregation

 

        提供了一个统一视角表明:它们均是更广义方案下通过神经网络集成空间上下文信息的特例。我们提出了CONTAINER(CONText AggregatIon NEtwoRK),一种用于多头上下文集成(Context Aggregation)的广义构建模块 。

  ContextAggregation |   亲测在红外弱小目标检测涨点明显,[email protected] 从0.755提升至0.759 

Yolov8红外弱小目标检测(8):微小目标检测的上下文增强和特征细化网络ContextAggregation,助力小目标检测_AI小怪兽的博客-CSDN博客

layers  parameters GFLOPs kb  mAP50
yolov8 168 3005843 8.1 6103 0.755
yolov8_ContextAggregation 195 3008092 8.1 6121 0.759

3.4.4 EMA跨空间学习的高效多尺度注意力 | ICASSP2023

        通过通道降维来建模跨通道关系可能会给提取深度视觉表示带来副作用。本文提出了一种新的高效的多尺度注意力(EMA)模块。以保留每个通道上的信息和降低计算开销为目标,将部分通道重塑为批量维度,并将通道维度分组为多个子特征,使空间语义特征在每个特征组中均匀分布。 

EMA |   亲测在红外弱小目标检测涨点,[email protected] 从0.755提升至0.766

layers  parameters GFLOPs kb  mAP50
yolov8 168 3005843 8.1 6103 0.755
yolov8_EMA 192 3006739 8.1 6114 0.766

Yolov8小目标检测(9): EMA基于跨空间学习的高效多尺度注意力、效果优于ECA、CBAM、CA | ICASSP2023_AI小怪兽的博客-CSDN博客

3.4.5 动态稀疏注意力BiFormer | CVPR 2023 

 本文方法:本文提出一种动态稀疏注意力的双层路由方法。对于一个查询,首先在粗略的区域级别上过滤掉不相关的键值对,然后在剩余候选区域(即路由区域)的并集中应用细粒度的令牌对令牌关注力。所提出的双层路由注意力具有简单而有效的实现方式,利用稀疏性来节省计算和内存,只涉及GPU友好的密集矩阵乘法。在此基础上构建了一种新的通用Vision Transformer,称为BiFormer。

 BiFormer |   亲测在红外弱小目标检测涨点,[email protected] 从0.755提升至0.758

layers  parameters GFLOPs kb  mAP50
yolov8 168 3005843 8.1 6103 0.755
yolov8_BiFormerBlock 204 3356179 22.4 6800 0.758

Yolov8小目标检测(12):动态稀疏注意力BiFormer | CVPR 2023_AI小怪兽的博客-CSDN博客

3.4.6  LSKblockAttention | ICCV 2023 

 提出的方法包括动态调整特征提取骨干的感受野,以便更有效地处理被检测物体的不同的广泛背景。这是通过一个空间选择机制来实现的,该机制对一连串的大 depth-wise 卷积核所处理的特征进行有效加权,然后在空间上将它们合并。这些核的权重是根据输入动态确定的,允许该模型自适应地使用不同的大核,并根据需要调整空间中每个目标的感受野。

《YOLO小目标检测》专栏介绍 & CSDN独家改进创新实战&专栏目录_第15张图片

 《YOLO小目标检测》专栏介绍 & CSDN独家改进创新实战&专栏目录_第16张图片

  LSKblockAttention |   亲测在红外弱小目标检测涨点,[email protected] 从0.755提升至0.775

layers  parameters GFLOPs kb  mAP50
yolov8 168 3005843 8.1 6103 0.755
yolov8_LSKblockAttention 201 3343333 8.7 6784 0.775

Yolov8小目标检测(13):LSKblockAttention助力小目标检测 | ICCV 2023 南开大学LSKNet_AI小怪兽的博客-CSDN博客

3.4.7 TripletAttention注意力

  所提出的Triplet Attention如下图所示,Triplet Attention由3个平行的Branch组成,其中两个负责捕获通道C和空间H或W之间的跨维交互。最后一个Branch类似于CBAM,用于构建Spatial Attention,最终3个Branch的输出使用平均求和。

TripletAttention |   亲测在红外弱小目标检测涨点,[email protected] 从0.755提升至0.79

layers  parameters GFLOPs kb  mAP50
yolov8 168 3005843 8.1 6103 0.755
yolov8_TripletAttention 201 3006443 8.2 6120 0.79

 Yolov8小目标检测(16):TripletAttention注意力,即插即用,效果优于cbam、se,涨点明显_AI小怪兽的博客-CSDN博客

3.4.8  通道优先卷积注意力(CPCA)| 中科院 2023.6

 通道先验卷积注意力(CPCA)的整体结构包括通道注意力和空间注意力的顺序放置。特征图的空间信息是由通道注意力通过平均池化和最大池化等操作来聚合的。 随后,空间信息通过共享 MLP(多层感知器)进行处理并添加以生成通道注意力图。 通道先验是通过输入特征和通道注意力图的元素相乘获得的。 随后,通道先验被输入到深度卷积模块中以生成空间注意力图。 卷积模块接收空间注意力图以进行通道混合。 最终,通过通道混合结果与通道先验的逐元素相乘,获得细化的特征作为输出。 通道混合过程有助于增强特征的表示

CPCA |   亲测在红外弱小目标检测涨点,[email protected] 从0.755提升至0.815

layers  parameters GFLOPs kb  mAP50
yolov8 168 3005843 8.1 6103 0.755
yolov8_ChannelAttention 171 3137427 7.8 6428 0.815

Yolov8小目标检测(18):通道优先卷积注意力(Channel Prior Convolutional Attention,CPCA)| 中科院 2023.6发布_AI小怪兽的博客-CSDN博客

3.4.8  多尺度MultiSEAM

  解决多尺度问题的主要方法是构建金字塔来融合人脸的多尺度特征。例如,在 YOLOv5 中,FPN 融合了 P3P4 和 P5 层的特征。但是对于小尺度的目标,经过多层卷积后信息很容易丢失,保留的像素信息很少,即使在较浅的P3层也是如此。因此,提高特征图的分辨率无疑有利于小目标的检测。

MultiSEAM|   亲测在红外弱小目标检测涨点明显,[email protected] 从0.755提升至0.87

layers  parameters GFLOPs kb  mAP50
yolov8 168 3005843 8.1 6103 0.755
yolov8_MultiSEAM 325 5742291 11711 0.87

 Yolov8小目标检测(20):多尺度MultiSEAM,提高特征图的分辨率增强小目标检测能力_AI小怪兽的博客-CSDN博客

3.4.9 轻量级注意力MobileViTAttention | ECCV2022 

  MobileViT 主要是为了解决 ViT 网络的缺陷而设计提出的,将 CNN 的优点融入到 Transformer 的结构中以解决 Transformer 网络存在的训练困难、迁移困难、调整困难的缺点,加快网络的推理和收敛速度,使得网络更加稳定高效。 

《YOLO小目标检测》专栏介绍 & CSDN独家改进创新实战&专栏目录_第17张图片

MobileViTAttention |   亲测在红外弱小目标检测涨点明显,[email protected] 从0.755提升至0.799

layers  parameters GFLOPs kb  mAP50
yolov8 168 3005843 8.1 6103 0.755
yolov8_MobileViTAttention 241 3957659 11.1 7992 0.799

 Yolov8小目标检测(21):轻量级注意力MobileViTAttention | ECCV2022_AI小怪兽的博客-CSDN博客

3.4.10 感受野注意力卷积运算

 关于感受野空间特征,我们提出感受野注意(RFA)。 这种方法不仅强调感受野滑块内不同特征的重要性,而且优先考虑感受野空间特征。 通过这种方法,彻底解决了卷积核参数共享的问题。 感受野空间特征是根据卷积核的大小动态生成的,因此,RFA是卷积的固定组合,离不开卷积运算的帮助,同时依靠RFA来提高性能,所以我们 提出感受野注意卷积(RFAConv)。 具有3×3尺寸卷积核的RFAConv的整体结构如图2所示。

《YOLO小目标检测》专栏介绍 & CSDN独家改进创新实战&专栏目录_第18张图片

 RFAConv |   亲测在红外弱小目标检测涨点明显,[email protected] 从0.755提升至0.765

layers  parameters GFLOPs kb  mAP50
yolov8 168 3005843 8.1 6103 0.755
yolov8-RFA 258 3019439 8.2 6166 0.765

 Yolov8小目标检测(22):感受野注意力卷积运算(RFAConv),助力小目标检测_AI小怪兽的博客-CSDN博客

3.4.11 移动端网络架构 RepViT | RepViTBlock | 清华 ICCV 2023

  RepViT 通过逐层微观设计来调整轻量级 CNN,这包括选择合适的卷积核大小和优化挤压-激励(Squeeze-and-excitation,简称SE)层的位置。这两种方法都能显著改善模型性能。

《YOLO小目标检测》专栏介绍 & CSDN独家改进创新实战&专栏目录_第19张图片

RepViTBlock|   亲测在红外弱小目标检测涨点明显,[email protected] 从0.755提升至0.791 

layers  parameters GFLOPs kb  mAP50
yolov8 168 3005843 8.1 6103 0.755
yolov8_RepViTBlock 186 3338387 7.9 6771 0.791

Yolov8小目标检测(24): 最新开源移动端网络架构 RepViT | RepViTBlock | 清华 ICCV 2023_AI小怪兽的博客-CSDN博客

3.4.11 Dual-ViT:一种多尺度双视觉Transformer

         摘要:以前的工作已经提出了几种降低自注意力机制计算成本的策略。其中许多工作考虑将自注意力过程分解为区域和局部特征提取过程,每个过程产生的计算复杂度要小得多。然而,区域信息通常仅以由于下采样而丢失的不希望的信息为代价。在本文中,作者提出了一种旨在缓解成本问题的新型Transformer架构,称为双视觉Transformer(Dual ViT)。新架构结合了一个关键的语义路径,可以更有效地将token向量压缩为全局语义,并降低复杂性。这种压缩的全局语义通过另一个构建的像素路径,作为学习内部像素级细节的有用先验信息。然后将语义路径和像素路径整合在一起,并进行联合训练,通过这两条路径并行传播增强的自注意力信息。因此,双ViT能够在不影响精度的情况下降低计算复杂度。实证证明,双ViT比SOTA Transformer架构提供了更高的精度,同时降低了训练复杂度。

        如图1(a)所示。Twins(上图(b))在SRA之前添加了额外的局部分组自注意力层,以通过区域内相互作用进一步增强表示。RegionViT(上图(c))通过区域和局部自注意力分解原始注意力。然而,由于上述方法严重依赖于特征映射到区域的下采样,在有效节省总计算成本的同时,观察到了明显的性能下降。

        如上图(d)所示,双ViT由两个特殊路径组成,分别称为“语义路径”和“像素路径”。通过构造的“像素路径”进行局部像素级特征提取是强烈依赖于“语义路径”之外的压缩全局先验。由于梯度同时通过语义路径和像素路径,因此双ViT训练过程可以有效地补偿全局特征压缩的信息损失,同时减少局部特征提取的困难。前者和后者都可以并行显著降低计算成本,因为注意力大小较小,并且两条路径之间存在强制依赖关系。

在本文中,我们提出了一种新颖的 Transformer 架构,它优雅地利用全局语义进行自注意力学习,即双视觉 Transformer (Dual-ViT)。

《YOLO小目标检测》专栏介绍 & CSDN独家改进创新实战&专栏目录_第20张图片

 [email protected] 从原始0.755提升至0.768

《YOLO小目标检测》专栏介绍 & CSDN独家改进创新实战&专栏目录_第21张图片

layers  parameters GFLOPs kb  mAP50
yolov8 168 3005843 8.1 6103 0.755
yolov8_DualAttention 186 4604819 8.3 9236 0.766
YOLOv8_DualAttention summary (fused): 186 layers, 4604819 parameters, 0 gradients, 8.3 GFLOPs
                 Class     Images  Instances      Box(P          R      mAP50  mAP50-95): 100%|██████████| 6/6 [00:04<00:00,  1.29it/s]
                   all        171        199      0.865      0.707      0.766      0.452

Yolov8小目标检测(25):Dual-ViT:一种多尺度双视觉Transformer ,Dualattention助力小目标检测| 顶刊TPAMI 2023_AI小怪兽的博客-CSDN博客

3.5 卷积变体

3.5.1 SPD-Conv

SPD-Conv由一个空间到深度(SPD)层和一个无卷积步长(Conv)层组成,可以应用于大多数CNN体系结构。我们从两个最具代表性的计算即使觉任务:目标检测和图像分类来解释这个新设计。然后,我们将SPD-Conv应用于YOLOv5和ResNet,创建了新的CNN架构,并通过经验证明,我们的方法明显优于最先进的深度学习模型,特别是在处理低分辨率图像和小物体等更困难的任务时。

Yolov8红外弱小目标检测(4):SPD-Conv,低分辨率图像和小物体涨点明显_AI小怪兽的博客-CSDN博客

SPD-Conv |   亲测在红外弱小目标检测涨点明显,[email protected] 从0.755提升至0.875

layers  parameters GFLOPs kb  mAP50
yolov8 168 3005843 8.1 6103 0.755
yolov8_SPD 174 3598739 49.2 7394 0.875

3.5.2 DCNv3可形变卷积 | CVPR2023

InternImage通过重新设计算子和模型结构提升了卷积模型的可扩展性并且缓解了归纳偏置,包括(1)DCNv3算子,基于DCNv2算子引入共享投射权重、多组机制和采样点调制。

(2)基础模块,融合先进模块作为模型构建的基本模块单元

(3)模块堆叠规则,扩展模型时规范化模型的宽度、深度、组数等超参数。

DCNv3 |   亲测在红外弱小目标检测涨点,[email protected] 从0.755提升至0.765

layers  parameters GFLOPs kb  mAP50
yolov8 168 3005843 8.1 6103 0.755
yolov8_DCNV3 264 2892317 7.9 5892 0.765

 Yolov8小目标检测(10):DCNv3可形变卷积助力涨点,COCO新纪录65.4mAP | CVPR2023 InternImage_AI小怪兽的博客-CSDN博客

3.5.3 新的Partial卷积(PConv) | CVPR2023 FasterNet 

为了设计快速神经网络,许多工作都集中在减少浮点运算(FLOPs)的数量上。然而,作者观察到FLOPs的这种减少不一定会带来延迟的类似程度的减少。这主要源于每秒低浮点运算(FLOPS)效率低下。为了实现更快的网络,作者重新回顾了FLOPs的运算符,并证明了如此低的FLOPS主要是由于运算符的频繁内存访问,尤其是深度卷积。因此,本文提出了一种新的partial convolution(PConv),通过同时减少冗余计算和内存访问可以更有效地提取空间特征。

​ 

    PConv |   亲测在红外弱小目标检测涨点,[email protected] 从0.755提升至0.758,同时参数量param及计算量FLOPs都有降低

layers  parameters GFLOPs kb  mAP50
yolov8 168 3005843 8.1 6103 0.755
yolov8_C2f_Pconv 177 2716883 7.6 5537 0.758

Yolov8小目标检测(15):新的Partial卷积(PConv) ,减少冗余计算和内存访问 | CVPR2023 FasterNet_AI小怪兽的博客-CSDN博客

3.5.4 ODConv | ICLR 2022

        ODConv通过并行策略引入一种多维注意力机制以对卷积核空间的四个维度学习更灵活的注意力。ODConv可以描述成如下形式:

        表示新引入的三个注意力,分别沿空域维度、输入通道维度以及输出通道维度。这四个注意力采用多头注意力模块 计算得到

       

ODConv |   亲测在红外弱小目标检测涨点,[email protected] 从0.755提升至0.76

layers  parameters GFLOPs kb  mAP50
yolov8 168 3005843 8.1 6103 0.755
yolov8_ODConv 179 3012110 7.9 6121 0.76

Yolov8小目标检测(17):ODConv提升小目标检测能力 | ICLR 2022_AI小怪兽的博客-CSDN博客

3.5.5 动态蛇形卷积(Dynamic Snake Convolution) | ICCV2023

 主要的挑战源于细长微弱的局部结构特征与复杂多变的全局形态特征。本文关注到管状结构细长连续的特点,并利用这一信息在神经网络以下三个阶段同时增强感知:特征提取、特征融合和损失约束。分别设计了动态蛇形卷积(Dynamic Snake Convolution),多视角特征融合策略与连续性拓扑约束损失。 

Dynamic Snake Convolution |   亲测在红外弱小目标检测涨点,[email protected] 从0.755提升至0.77

layers  parameters GFLOPs kb  mAP50
yolov8 168 3005843 8.1 6103 0.755
yolov8_DySnakeConv 229 3356287 8.5 6822 0.77

Yolov8小目标检测(19):动态蛇形卷积(Dynamic Snake Convolution),增强细长微弱特征 | ICCV2023_AI小怪兽的博客-CSDN博客

持续更新中

番外篇:工业小目标缺陷检测

layers  parameters GFLOPs  mAP50 mAP50-95
YOLOv8n  168 3006038 8.1 0.679 0.322
YOLOv8n_smallobject  207 2977720 12.5 0.702 0.359
Wasserstein loss 168 3006038 8.1 0.714 0.342
YOLOv8n_CSPStage 232 2982742 8.1 0.727 0.339
YOLOv8n_smallobject _CSPStage 303 2953528 12.5 0.734 0.376
YOLOv8n_smallobject _CSPStage+Wasserstein loss 303 2953528 12.5 0.814 0.416

工业油污数据集介绍
三星油污缺陷类别:头发丝和小黑点,["TFS","XZW"] 

数据集大小:660张,包括部分良品图像,提升背景检测能力。

数据集地址:https://download.csdn.net/download/m0_63774211/87741209

缺陷特点:小目标缺陷,检测难度大,如下图所示;

1.1 动态蛇形卷积(Dynamic Snake Convolution),实现暴力涨点 | ICCV2023

Dynamic Snake Convolution |   亲测在工业小目标缺陷涨点明显,原始[email protected] 0.679提升至0.743

  主要的挑战源于细长微弱的局部结构特征与复杂多变的全局形态特征。本文关注到管状结构细长连续的特点,并利用这一信息在神经网络以下三个阶段同时增强感知:特征提取、特征融合和损失约束。分别设计了动态蛇形卷积(Dynamic Snake Convolution),多视角特征融合策略与连续性拓扑约束损失。 

         我们希望卷积核一方面能够自由地贴合结构学习特征,另一方面能够在约束条件下不偏离目标结构太远。在观察管状结构的细长连续的特征后,脑海里想到了一个动物——。我们希望卷积核能够像蛇一样动态地扭动,来贴合目标的结构。

原始[email protected] 0.679提升至0.743

《YOLO小目标检测》专栏介绍 & CSDN独家改进创新实战&专栏目录_第22张图片

YOLOv8-C2f-DySnakeConv summary: 249 layers, 3425894 parameters, 0 gradients, 8.7 GFLOPs
                 Class     Images  Instances      Box(P          R      mAP50  mAP50-95): 100%|██████████| 2/2 [00:04<00:00,  2.15s/it]
                   all         66        187      0.722      0.668      0.743      0.342
                   TFS         66        130      0.582        0.6      0.638      0.295
                   XZW         66         57      0.862      0.737      0.847      0.388

基于Yolov8的工业小目标缺陷检测(2):动态蛇形卷积(Dynamic Snake Convolution),实现暴力涨点 | ICCV2023_AI小怪兽的博客-CSDN博客

1.2 微小目标检测可能存在检测能力不佳的现象,添加一个微小物体的检测头

多头检测器 |   亲测在工业小目标缺陷涨点明显,原始[email protected] 0.679提升至0.702

原始[email protected] 0.679提升至0.702

《YOLO小目标检测》专栏介绍 & CSDN独家改进创新实战&专栏目录_第23张图片

YOLOv8n_4 summary (fused): 207 layers, 2977720 parameters, 0 gradients, 12.5 GFLOPs
                 Class     Images  Instances      Box(P          R      mAP50  mAP50-95): 100%|██████████| 3/3 [00:04<00:00,  1.64s/it]
                   all         66        187       0.68      0.612      0.702      0.359
                   TFS         66        130      0.486      0.487       0.52      0.228
                   XZW         66         57      0.875      0.737      0.885       0.49

基于Yolov8的工业小目标缺陷检测(3):多检测头提升小目标检测精度_AI小怪兽的博客-CSDN博客

1.3 SPD-Conv,低分辨率图像和小物体涨点明显

SPD-Conv |   亲测在工业小目标缺陷涨点明显,原始[email protected] 0.679提升至0.775

SPD- conv由一个空间到深度(SPD)层和一个非跨步卷积层组成。SPD组件推广了一种(原始)图像转换技术[29]来对CNN内部和整个CNN的特征映射进行下采样:

 原始[email protected] 0.679提升至0.775

《YOLO小目标检测》专栏介绍 & CSDN独家改进创新实战&专栏目录_第24张图片

YOLOv8n_SPD summary (fused): 174 layers, 3598934 parameters, 0 gradients, 49.2 GFLOPs
                 Class     Images  Instances      Box(P          R      mAP50  mAP50-95): 100%|██████████| 3/3 [00:13<00:00,  4.51s/it]
                   all         66        187      0.741      0.693      0.775      0.415
                   TFS         66        130      0.593      0.562      0.629      0.314
                   XZW         66         57       0.89      0.825       0.92      0.516

基于Yolov8的工业小目标缺陷检测(4):SPD-Conv,低分辨率图像和小物体涨点明显_AI小怪兽的博客-CSDN博客

1.4大缺陷小缺陷一网打尽的轻量级目标检测器GiraffeDet

  GiraffeDet |   亲测在工业小目标缺陷涨点明显,原始[email protected] 0.679提升至0.727

 

         本文提出了GiraffeDet用于高效目标检测,giraffe包含轻量space-to-depth chain、Generalized-FPN以及预测网络

        FPN旨在对CNN骨干网络提取的不同分辨率的多尺度特征进行融合。上图给出了FPN的进化,从最初的FPN到PANet再到BiFPN。我们注意到:这些FPN架构仅聚焦于特征融合,缺少了块内连接。因此,我们设计了一种新的路径融合GFPN:包含跳层与跨尺度连接,见上图d。

 原始[email protected] 0.679提升至0.734

《YOLO小目标检测》专栏介绍 & CSDN独家改进创新实战&专栏目录_第25张图片

YOLOv8n_4_CSPStage summary: 303 layers, 2953528 parameters, 0 gradients, 12.5 GFLOPs
                 Class     Images  Instances      Box(P          R      mAP50  mAP50-95): 100%|██████████| 3/3 [00:04<00:00,  1.56s/it]
                   all         66        187      0.689       0.68      0.734      0.376
                   TFS         66        130      0.523      0.554      0.571      0.267
                   XZW         66         57      0.855      0.807      0.896      0.486

基于Yolov8的工业小目标缺陷检测(5):大缺陷小缺陷一网打尽的轻量级目标检测器GiraffeDet,暴力提升工业缺陷检测能力_AI小怪兽的博客-CSDN博客

 1.5 多检测头结合小缺陷到大缺陷一网打尽的轻量级目标检测器GiraffeDet

多头检测器+ GiraffeDet |   亲测在工业小目标缺陷涨点明显,原始[email protected] 0.679提升至0.734

基于Yolov8的工业小目标缺陷检测(6):多检测头结合小缺陷到大缺陷一网打尽的轻量级目标检测器GiraffeDet,暴力提升工业小目标缺陷检测能力_AI小怪兽的博客-CSDN博客

 原始[email protected] 0.679提升至0.734

《YOLO小目标检测》专栏介绍 & CSDN独家改进创新实战&专栏目录_第26张图片

YOLOv8n_4_CSPStage summary: 303 layers, 2953528 parameters, 0 gradients, 12.5 GFLOPs
                 Class     Images  Instances      Box(P          R      mAP50  mAP50-95): 100%|██████████| 3/3 [00:04<00:00,  1.56s/it]
                   all         66        187      0.689       0.68      0.734      0.376
                   TFS         66        130      0.523      0.554      0.571      0.267
                   XZW         66         57      0.855      0.807      0.896      0.486

 1.6 Wasserstein Distance Loss,助力工业缺陷检测

Wasserstein Distance Loss |   亲测在工业小目标缺陷涨点明显,原始[email protected] 0.679提升至0.727

 

Wasserstein distance的主要优点是

  1. 无论小目标之间有没有重叠都可以度量分布相似性;
  2. NWD对不同尺度的目标不敏感,更适合测量小目标之间的相似性。

NWD可应用于One-Stage和Multi-Stage Anchor-Based检测器。此外,NWD不仅可以替代标签分配中的IoU,还可以替代非最大抑制中的IoU(NMS)和回归损失函数。在一个新的TOD数据集AI-TOD上的大量实验表明,本文提出的NWD可以持续地提高所有检测器的检测性能。

 原始[email protected] 0.679提升至0.727

《YOLO小目标检测》专栏介绍 & CSDN独家改进创新实战&专栏目录_第27张图片

YOLOv8n summary (fused): 168 layers, 3006038 parameters, 0 gradients, 8.1 GFLOPs
                 Class     Images  Instances      Box(P          R      mAP50  mAP50-95): 100%|██████████| 3/3 [00:04<00:00,  1.45s/it]
                   all         66        187      0.673      0.649      0.714      0.342
                   TFS         66        130      0.573      0.579      0.615      0.283
                   XZW         66         57      0.772      0.719      0.813      0.401

基于Yolov8的工业小目标缺陷检测(7):Wasserstein Distance Loss,助力工业缺陷检测_AI小怪兽的博客-CSDN博客

1.7 工业部署级解决方案: 多头检测器+小缺陷到大缺陷一网打尽的+Wasserstein Distance Loss

《YOLO小目标检测》专栏介绍 & CSDN独家改进创新实战&专栏目录_第28张图片

 原始[email protected] 0.679提升至0.814

《YOLO小目标检测》专栏介绍 & CSDN独家改进创新实战&专栏目录_第29张图片

YOLOv8_4_CSPStage summary: 303 layers, 2953528 parameters, 0 gradients, 12.5 GFLOPs
                 Class     Images  Instances      Box(P          R      mAP50  mAP50-95): 100%|██████████| 2/2 [00:04<00:00,  2.19s/it]
                   all         66        187      0.783      0.705      0.814      0.416
                   TFS         66        130      0.647      0.619      0.693      0.317
                   XZW         66         57      0.919      0.792      0.935      0.514

基于Yolov8的工业小目标缺陷检测(8):工业部署解决方案 | 多头检测器+小缺陷到大缺陷一网打尽的+Wasserstein Distance Loss | 助力工业缺陷检测-CSDN博客

番外篇:工业 端面小目标计数

  端面小目标计数数据集介绍

工业端面小目标计数类别:一类,类别名object

数据集大小:训练集864张,验证集98张

数据集下载地址:目标检测数据集:工业端面小目标缺陷计数数据集_AI小怪兽的博客-CSDN博客

缺陷特点:小目标计数,检测难度大,如下图所示;

《YOLO小目标检测》专栏介绍 & CSDN独家改进创新实战&专栏目录_第30张图片

《YOLO小目标检测》专栏介绍 & CSDN独家改进创新实战&专栏目录_第31张图片

 原始性能

  预测结果:

《YOLO小目标检测》专栏介绍 & CSDN独家改进创新实战&专栏目录_第32张图片

《YOLO小目标检测》专栏介绍 & CSDN独家改进创新实战&专栏目录_第33张图片

YOLOv8n summary (fused): 168 layers, 3005843 parameters, 0 gradients, 8.1 GFLOPs
                 Class     Images  Instances      Box(P          R      mAP50  mAP50-95): 100%|██████████| 3/3 [00:47<00:00, 15.76s/it]
                   all         96       5055      0.912      0.915      0.936      0.772

1.1  Gold-YOLO,遥遥领先,超越所有YOLO | 华为诺亚NeurIPS23

提出了一种全新的信息交互融合机制:信息聚集-分发机制(Gather-and-Distribute Mechanism)。该机制通过在全局上融合不同层次的特征得到全局信息,并将全局信息注入到不同层级的特征中,实现了高效的信息交互和融合。在不显著增加延迟的情况下GD机制显著增强了Neck部分的信息融合能力,提高了模型对不同大小物体的检测能力。 

 在Gold-YOLO中,针对模型需要检测不同大小的物体的需要,并权衡精度和速度,我们构建了两个GD分支对信息进行融合:低层级信息聚集-分发分支(Low-GD)和高层级信息聚集-分发分支(High-GD),分别基于卷积和transformer提取和融合特征信息。

 原始[email protected] 0.936提升至0.945

《YOLO小目标检测》专栏介绍 & CSDN独家改进创新实战&专栏目录_第34张图片

YOLOv8-goldYOLO summary: 359 layers, 6015123 parameters, 0 gradients, 11.9 GFLOPs
                 Class     Images  Instances      Box(P          R      mAP50  mAP50-95): 100%|██████████| 3/3 [00:09<00:00,  3.11s/it]
                   all         96       5055       0.91      0.922      0.945      0.787

基于Yolov8的工业端面小目标计数检测(2):Gold-YOLO,遥遥领先,超越所有YOLO | 华为诺亚NeurIPS23_AI小怪兽的博客-CSDN博客

 1.2 小目标计数解决方案: 多头检测器+小缺陷到大缺陷一网打尽的GiraffeDet+Wasserstein Distance Loss

 原始[email protected] 0.936提升至0.955

《YOLO小目标检测》专栏介绍 & CSDN独家改进创新实战&专栏目录_第35张图片​​

YOLOv8_4_CSPStage summary: 303 layers, 2953396 parameters, 0 gradients, 12.5 GFLOPs
                 Class     Images  Instances      Box(P          R      mAP50  mAP50-95): 100%|██████████| 6/6 [00:22<00:00,  3.75s/it]
                   all         96       5055       0.92      0.951      0.955      0.811

基于YOLOv8的端面小目标计数解决方案: 多头检测器+小缺陷到大缺陷一网打尽的GiraffeDet+Wasserstein Distance Loss | 助力工业小目标缺陷检测_AI小怪兽的博客-CSDN博客

未完待续,持续更新中​​​​​​​

你可能感兴趣的:(YOLO小目标检测,目标跟踪,算法,人工智能,目标检测,YOLO,深度学习,计算机视觉)