【CVPR2024】计算机视觉|即插即用|DFAM:marine!不懂DFAM,别说你会做水下动物分割!

【CVPR2024】计算机视觉|即插即用|DFAM:marine!不懂DFAM,别说你会做水下动物分割!_第1张图片
论文地址:http://arxiv.org/pdf/2404.04996v1
代码地址:https://github.com/Drchip61/Dual_SAM


关注UP CV缝合怪,分享最计算机视觉新即插即用模块,并提供配套的论文资料与代码。
https://space.bilibili.com/473764881
【CVPR2024】计算机视觉|即插即用|DFAM:marine!不懂DFAM,别说你会做水下动物分割!_第2张图片

摘要

本研究提出了一种新颖的特征学习框架,名为**Dual-SAM,用于高性能的海洋动物分割(MAS)。为了增强海洋图像的特征学习,本研究首先引入了一个具有SAM范式的双重结构。然后,本研究提出了一种多层耦合提示(MCP)策略,以指导全面的水下先验信息,并利用适配器增强SAM编码器的多层特征。随后,本研究设计了一个扩张融合注意力模块(DFAM),以逐步整合来自SAM编码器的多层特征。最后,本研究没有直接预测海洋动物的掩码,而是提出了一种纵横连接预测(C3P)范式,以捕捉离散像素之间的互连性。借助双重解码器,它可以生成伪标签,并实现相互监督以获得互补的特征表示,从而比以前的技术有了显著的改进。广泛的实验验证了本研究提出的方法在五个广泛使用的MAS数据集上实现了最先进的性能**。

【CVPR2024】计算机视觉|即插即用|DFAM:marine!不懂DFAM,别说你会做水下动物分割!_第3张图片

引言

水下环境中的海洋动物分割(MAS)水下智能的重要组成部分,对于理解物种分布、行为以及它们在水下世界中的相互作用至关重要。然而,与传统陆地图像不同,水下图像面临着光照条件多变、水体浑浊、色彩失真以及相机和拍摄对象移动等挑战。传统上为陆地环境设计的分割技术在水下环境中往往表现不佳。因此,迫切需要专门针对海洋环境独特性的方法来支持水下智能的发展

近年来,深度学习特别是卷积神经网络(CNN)在图像分割领域取得了显著进展。CNN在提取复杂特征方面表现出色,使其能够适用于海洋动物分割。然而,CNN在捕捉图像中的长距离依赖关系和上下文信息方面存在固有的局限性Transformer模型在捕捉复杂图像的远程特征方面展现出更强的能力。这种能力对于水下图像分割特别有吸引力,因为上下文信息对于区分海洋生物与其背景至关重要。然而,Transformer的一个重要挑战是需要大量的训练数据。

为了克服以上问题,有学者提出了Segment Anything Model (SAM),并利用十亿张自然图像进行模型训练。但是,由于SAM的预训练主要在自然光照条件下进行,因此其在海洋环境中的性能并非最佳。此外,SAM解码器的简单性限制了其捕捉海洋生物复杂细节的能力。而且,SAM引入了外部提示来指导对象先验,但单位置提示对于先验指导来说非常不足

因此,本研究旨在提出一种新颖的特征学习框架,即扩张融合注意力模块(DFAM),以逐步整合来自SAM编码器的多层次特征。通过结合扩张卷积和注意力机制,DFAM旨在提升模型对海洋动物的定位感知能力,改善水下图像分割效果。该模块的设计着重于提升感受野,从而更有效地捕捉上下文信息和长距离依赖关系,进而提高海洋动物分割的准确性和鲁棒性。

论文创新点

本研究提出了一种新的特征学习框架,即扩张融合注意力模块(DFAM),旨在提升计算机视觉任务中,特别是海洋动物分割任务中的定位感知能力。DFAM模块的创新点主要体现在以下几个方面:

  1. 多层次特征融合:

    • DFAM并非简单地将来自SAM编码器的多层次特征进行拼接,而是通过一种渐进的方式进行整合。
    • 这种逐步融合的方式允许模型在不同抽象层级上提取和利用信息,从而更全面地理解场景。
  2. 扩张卷积的应用:

    • 为了扩大感受野,DFAM采用了扩张卷积。
    • 与传统卷积相比,扩张卷积可以在不增加参数数量的情况下,捕捉更大范围的上下文信息,这对于分割大型或不规则形状的海洋动物至关重要。
  3. 通道注意力机制的引入:

    • DFAM融合了通道注意力机制,使模型能够自适应地学习不同通道的重要性。
    • 通过对不同通道的特征进行加权,DFAM可以突出显示与目标对象相关的特征,抑制噪声和无关信息,从而提高分割的准确性。
  4. 上下文感知的增强:

    • 通过扩张卷积和通道注意力机制的结合,DFAM能够有效地整合全局上下文信息和局部细节特征。
    • 这种上下文感知能力使得模型能够更好地区分目标对象与背景,从而提高分割的鲁棒性。
  5. 即插即用性:

    • DFAM被设计为一个即插即用的模块,可以方便地集成到现有的分割网络中。
    • 这种灵活性使得研究人员可以轻松地将DFAM应用到各种计算机视觉任务中,并与其他模块进行组合,从而进一步提高性能。

总而言之,DFAM模块通过多层次特征融合、扩张卷积、通道注意力机制等创新设计,有效地提升了模型对目标对象的定位感知能力,为计算机视觉任务提供了一种新的解决方案。

论文实验

【CVPR2024】计算机视觉|即插即用|DFAM:marine!不懂DFAM,别说你会做水下动物分割!_第4张图片
【CVPR2024】计算机视觉|即插即用|DFAM:marine!不懂DFAM,别说你会做水下动物分割!_第5张图片

你可能感兴趣的:(【CVPR2024】计算机视觉|即插即用|DFAM:marine!不懂DFAM,别说你会做水下动物分割!)