【CVPR2025】计算机视觉|Salience DETR:显著性目标检测,精度暴涨!

【CVPR2025】计算机视觉|Salience DETR:显著性目标检测,精度暴涨!_第1张图片
论文地址:http://arxiv.org/pdf/2403.16131v1
代码地址:https://github.com/xiuqhou/Salience-DETR


关注UP CV缝合怪,分享最计算机视觉新即插即用模块,并提供配套的论文资料与代码。
https://space.bilibili.com/473764881
【CVPR2025】计算机视觉|Salience DETR:显著性目标检测,精度暴涨!_第2张图片

摘要

本研究旨在解决类DETR方法中存在的计算负担重对稳定查询选择依赖性高的问题。这些问题源于次优的两阶段选择策略,导致尺度偏差冗余。为了解决这些问题,本研究提出了一种分层显著性过滤细化方法,该方法仅对过滤后的判别性查询执行Transformer编码,从而在计算效率和精度之间取得更好的平衡。通过一种新颖的尺度独立显著性监督,过滤过程克服了尺度偏差。为了补偿查询之间的语义错位,本研究引入了精细的查询细化模块,以实现稳定的两阶段初始化。基于上述改进,所提出的Salience DETR在三个具有挑战性的特定任务检测数据集上实现了显著的改进,在COCO 2017上以更少的FLOP实现了49.2%的AP
【CVPR2025】计算机视觉|Salience DETR:显著性目标检测,精度暴涨!_第3张图片

引言

目标检测是计算机视觉中的一项基础任务,并在众多实际应用中发挥着关键作用。尽管卷积检测器在过去几十年取得了显著进展,但它们仍然受到手工设计的组件(如非极大值抑制)的限制。近年来,DEtection TRansformer (DETR) 的出现,使得基于 Transformer 的端到端检测器在 COCO 挑战赛中表现出卓越的性能提升。

在 DETR 的众多变体中,最新的高性能框架遵循一种两阶段流程,即在编码器中执行密集自注意力,并在解码器中选择稀疏查询以进行交叉注意力。这种方法虽然提高了检测性能,但也导致计算量增加,并且对稳定的两阶段查询初始化提出了更高的要求。然而,本研究观察到,在涉及弱小目标的特定任务检测场景中,现有的两阶段选择结果表现出对大物体的显著尺度偏差,以及背景和对称查询中的冗余,这导致了不令人满意的性能,因为区分性查询不足

本研究将这些问题归因于检测 Transformer 中的两种冗余类型:编码冗余选择冗余。通常认为,图像前景比背景更有助于确定物体类别和位置,因此,对背景查询执行自注意力可能会引入不相关和无区分性的信息,从而导致编码冗余。此外,即使两阶段查询的数量远大于实际物体的数量,DETR 类方法仍然可以从更多的两阶段查询中获益,这表明为两阶段初始化选择的查询与实际物体并非完全一一对应,即存在选择冗余。这两种冗余导致了沉重的计算负担以及非区分性查询

为了应对这些挑战,本研究提出了一种新的检测器,称为 Salience DETR,它具有分层显著性过滤细化功能。本研究引入了一种尺度独立的显著性引导监督,以克服查询过滤期间的尺度偏差。通过提出的监督机制,设计了一种分层查询过滤机制,通过仅编码选定的查询来减少编码冗余。为了弥补查询之间的语义错位,本研究提出了三个精心设计的模块,从多尺度特征前景-背景差异选择策略的角度来细化查询。

论文创新点

本研究提出了一种名为 Salience DETR 的新型检测框架,旨在减轻两阶段 DETR 类检测器中的编码和选择冗余。

  1. 层级显著性过滤细化方法:

    • 本研究引入了一种层级显著性过滤细化方法。
    • 该方法有选择地编码部分具有区分性的查询,并在尺度无关的显著性监督下进行,从而克服了尺度偏差。
    • 通过这种方式,模型能够在计算效率和精度之间取得更好的平衡。
  2. 背景嵌入和跨层 Token 融合模块:

    • 为了弥补不同层级和层之间查询的语义不对齐问题,本研究设计了背景嵌入和跨层 Token 融合模块。
    • 背景嵌入模块能够补偿语义的缺失,Token 融合模块有效地聚合了跨层信息,从而提升了检测性能。
  3. ✂️ 精细的冗余去除模块: ✂️

    • 本研究提出了一种精细的冗余去除模块,用于稳定两阶段的初始化过程。
    • 通过非极大值抑制(NMS)去除冗余查询,使得解码器能够关注更具区分性的特征,从而提升了检测的准确性。
  4. ⚖️ 尺度独立的显著性监督机制: ⚖️

    • 本研究设计了一种尺度独立的显著性监督机制,该机制完全由显著性决定,克服了以往方法中对大型物体产生偏差的问题。
    • 从而确保了对不同尺度的物体进行更公平的查询选择,提高了整体检测性能。
  5. 卓越的性能表现:

    • 通过在三个特定任务的数据集和一个通用物体检测数据集上的实验,证明 Salience DETR 在计算复杂度和精度之间实现了卓越的平衡,并在多个数据集上取得了 state-of-the-art 的性能。
    • 具体来说,该模型在计算量减少的同时,保持甚至提高了检测精度,这归功于其高效的查询过滤和细化策略。

论文实验

【CVPR2025】计算机视觉|Salience DETR:显著性目标检测,精度暴涨!_第4张图片
【CVPR2025】计算机视觉|Salience DETR:显著性目标检测,精度暴涨!_第5张图片

你可能感兴趣的:(【CVPR2025】计算机视觉|Salience DETR:显著性目标检测,精度暴涨!)