论文地址:http://arxiv.org/pdf/2404.04996v1
代码地址:https://github.com/Drchip61/Dual_SAM
关注UP CV缝合怪,分享最计算机视觉新即插即用模块,并提供配套的论文资料与代码。
https://space.bilibili.com/473764881
本研究提出了一种新颖的特征学习框架,名为**Dual-SAM
,用于高性能的海洋动物分割(MAS)。为了增强海洋图像的特征学习,本研究首先引入了一个具有SAM范式
的双重结构。然后,本研究提出了一种多层耦合提示(MCP)
策略,以指导全面的水下先验信息,并利用适配器增强SAM编码器的多层特征。随后,本研究设计了一个扩张融合注意力模块(DFAM)
,以逐步整合来自SAM编码器的多层特征。最后,本研究没有直接预测海洋动物的掩码,而是提出了一种纵横连接预测(C3P)
范式,以捕捉离散像素之间的互连性。借助双重解码器,它可以生成伪标签,并实现相互监督以获得互补的特征表示,从而比以前的技术有了显著的改进。广泛的实验验证了本研究提出的方法在五个广泛使用的MAS数据集上实现了最先进的性能**。
水下环境中的海洋动物分割(MAS)是水下智能的重要组成部分,对于理解物种分布、行为以及它们在水下世界中的相互作用至关重要。然而,与传统陆地图像不同,水下图像面临着光照条件多变、水体浑浊、色彩失真以及相机和拍摄对象移动等挑战。传统上为陆地环境设计的分割技术在水下环境中往往表现不佳。因此,迫切需要专门针对海洋环境独特性的方法来支持水下智能的发展。
近年来,深度学习特别是卷积神经网络(CNN)在图像分割领域取得了显著进展。CNN在提取复杂特征方面表现出色,使其能够适用于海洋动物分割。然而,CNN在捕捉图像中的长距离依赖关系和上下文信息方面存在固有的局限性。Transformer模型在捕捉复杂图像的远程特征方面展现出更强的能力。这种能力对于水下图像分割特别有吸引力,因为上下文信息对于区分海洋生物与其背景至关重要。然而,Transformer的一个重要挑战是需要大量的训练数据。
为了克服以上问题,有学者提出了Segment Anything Model (SAM),并利用十亿张自然图像进行模型训练。但是,由于SAM的预训练主要在自然光照条件下进行,因此其在海洋环境中的性能并非最佳。此外,SAM解码器的简单性限制了其捕捉海洋生物复杂细节的能力。而且,SAM引入了外部提示来指导对象先验,但单位置提示对于先验指导来说非常不足。
因此,本研究旨在提出一种新颖的特征学习框架,即扩张融合注意力模块(DFAM),以逐步整合来自SAM编码器的多层次特征。通过结合扩张卷积和注意力机制,DFAM旨在提升模型对海洋动物的定位感知能力,改善水下图像分割效果。该模块的设计着重于提升感受野,从而更有效地捕捉上下文信息和长距离依赖关系,进而提高海洋动物分割的准确性和鲁棒性。
本研究提出了一种新的特征学习框架,即扩张融合注意力模块(DFAM),旨在提升计算机视觉任务中,特别是海洋动物分割任务中的定位感知能力。DFAM模块的创新点主要体现在以下几个方面:
多层次特征融合:
扩张卷积的应用:
通道注意力机制的引入:
上下文感知的增强:
即插即用性:
总而言之,DFAM模块通过多层次特征融合、扩张卷积、通道注意力机制等创新设计,有效地提升了模型对目标对象的定位感知能力,为计算机视觉任务提供了一种新的解决方案。