论文地址:http://arxiv.org/pdf/2403.16131v1
代码地址:https://github.com/xiuqhou/Salience-DETR
关注UP CV缝合怪,分享最计算机视觉新即插即用模块,并提供配套的论文资料与代码。
https://space.bilibili.com/473764881
本研究旨在解决类DETR方法中存在的计算负担重和对稳定查询选择依赖性高的问题。这些问题源于次优的两阶段选择策略,导致尺度偏差和冗余。为了解决这些问题,本研究提出了一种分层显著性过滤细化方法,该方法仅对过滤后的判别性查询执行Transformer编码,从而在计算效率和精度之间取得更好的平衡。通过一种新颖的尺度独立显著性监督,过滤过程克服了尺度偏差。为了补偿查询之间的语义错位,本研究引入了精细的查询细化模块,以实现稳定的两阶段初始化。基于上述改进,所提出的Salience DETR在三个具有挑战性的特定任务检测数据集上实现了显著的改进,在COCO 2017上以更少的FLOP实现了49.2%的AP。
目标检测是计算机视觉中的一项基础任务,并在众多实际应用中发挥着关键作用。尽管卷积检测器在过去几十年取得了显著进展,但它们仍然受到手工设计的组件(如非极大值抑制)的限制。近年来,DEtection TRansformer (DETR) 的出现,使得基于 Transformer 的端到端检测器在 COCO 挑战赛中表现出卓越的性能提升。
在 DETR 的众多变体中,最新的高性能框架遵循一种两阶段流程,即在编码器中执行密集自注意力,并在解码器中选择稀疏查询以进行交叉注意力。这种方法虽然提高了检测性能,但也导致计算量增加,并且对稳定的两阶段查询初始化提出了更高的要求。然而,本研究观察到,在涉及弱小目标的特定任务检测场景中,现有的两阶段选择结果表现出对大物体的显著尺度偏差,以及背景和对称查询中的冗余,这导致了不令人满意的性能,因为区分性查询不足。
本研究将这些问题归因于检测 Transformer 中的两种冗余类型:编码冗余和选择冗余。通常认为,图像前景比背景更有助于确定物体类别和位置,因此,对背景查询执行自注意力可能会引入不相关和无区分性的信息,从而导致编码冗余。此外,即使两阶段查询的数量远大于实际物体的数量,DETR 类方法仍然可以从更多的两阶段查询中获益,这表明为两阶段初始化选择的查询与实际物体并非完全一一对应,即存在选择冗余。这两种冗余导致了沉重的计算负担以及非区分性查询。
为了应对这些挑战,本研究提出了一种新的检测器,称为 Salience DETR,它具有分层显著性过滤细化功能。本研究引入了一种尺度独立的显著性引导监督,以克服查询过滤期间的尺度偏差。通过提出的监督机制,设计了一种分层查询过滤机制,通过仅编码选定的查询来减少编码冗余。为了弥补查询之间的语义错位,本研究提出了三个精心设计的模块,从多尺度特征、前景-背景差异和选择策略的角度来细化查询。
本研究提出了一种名为 Salience DETR 的新型检测框架,旨在减轻两阶段 DETR 类检测器中的编码和选择冗余。
层级显著性过滤细化方法:
背景嵌入和跨层 Token 融合模块:
✂️ 精细的冗余去除模块: ✂️
⚖️ 尺度独立的显著性监督机制: ⚖️
卓越的性能表现: