[24.09.28更新NeurIPS‘24]SAM(Segment Anything Model)最新顶会文章汇总

CVPR 2024

Endow SAM with Keen Eyes: Temporal-spatial Prompt Learning for Video Camouflaged Object Detection

赋予 SAM 敏锐的洞察力:用于视频伪装目标检测的时空即时学习

文章链接        代码链接

摘要:Segment Anything Model (SAM) 是一种即时驱动的基础模型,在自然图像分割方面表现出了卓越的性能。然而,其在视频伪装物体检测(VCOD)中的应用遇到了挑战,主要源于被忽视的时空关联以及用户为肉眼难以辨别的伪装物体提供的提示的不可靠性。为了解决上述问题,我们赋予 SAM 敏锐的洞察力,并提出了时空提示 SAM(TSP-SAM),这是一种通过巧妙的提示学习方案为 VCOD 量身定制的新颖方法。首先,采用动作驱动的自我提示学习来捕获伪装的物体,从而绕过用户提供提示的需要。通过在连续视频帧中检测到的细微运动线索,捕获伪装物体的整体运动,以实现更精确的空间定位。随后,为了消除帧间不连续性导致的提示偏差,考虑视频序列内的远程一致性,以提高自我提示的鲁棒性。它还被注入到SAM的编码器中以增强表征能力。两个基准的大量实验结果表明,所提出的 TSP-SAM 比最先进的方法取得了显着的改进。随着 mIoU 指标增加 7.8% 和 9.6%,TSP-SAM 成为 VCOD 领域的突破性一步。

ASAM: Boosting Segment Anything Model with Adversarial Tuning

 (ASAM:通过对抗性调整增强SAM)

文章链接        代码链接

摘要:在不断发展的计算机视觉领域,基础模型已成为关键工具,表现出对无数任务的卓越适应性。其中,Meta AI 的 Segment Anything Model (SAM) 在图像分割方面表现出色。然而,SAM 与其同类产品一样,在特定的利基应用中遇到了限制,促使人们寻求不损害其固有功能的增强策略。本文介绍了 ASAM,这是一种通过对抗性调整来增强 SAM 性能的新颖方法。受到自然语言处理(NLP)中成功实施的启发,我们利用了自然对抗示例的潜力。通过利用稳定的扩散模型,我们扩充了 SA-1B 数据集的子集 (1%),生成更能代表自然变化而不是传统的难以察觉的扰动的对抗实例。我们的方法保持了对抗性示例的真实感,并确保与原始掩模注释保持一致,从而保持了分割任务的完整性。经过微调的 ASAM 在各种分割任务中展示了显着的改进,而无需额外的数据或架构修改。我们广泛评估的结果证实,ASAM 在分割任务中建立了新的基准,从而有助于计算机视觉基础模型的进步。

AlignSAM: Aligning Segment Anything Model to Open Context via Reinforcement Learning

 (通过强化学习将SAM与开放上下文对齐)

文章链接        代码链接(未公开)

摘要:在海量精选训练数据的支持下,Segment Anything Model (SAM) 在提示的指导下在开放世界场景中展示了其令人印象深刻的泛化能力。然而,普通 SAM 与类无关,并且严重依赖用户提供的提示来分割感兴趣的对象。使这种方法适应不同的任务对于准确的目标识别和避免次优的分割结果至关重要。在本文中,我们提出了一个名为 AlignSAM 的新颖框架,旨在通过强化学习自动提示将 SAM 与开放环境对齐。以代理为锚定,AlignSAM 使 SAM 模型能够在不同的下游任务中通用,同时保持其参数不变。具体来说,AlignSAM 启动一个提示代理,通过与基础模型交互来迭代地完善分割预测。它集成了强化学习策略网络,为基础模型提供信息提示。此外,还引入了语义重新校准模块来提供细粒度的提示标签,从而增强模型处理包含显式和隐式语义的任务的熟练程度。对现有基础模型中各种具有挑战性的分割任务进行的实验证明了所提出的 AlignSAM 相对于最先进方法的优越性。

Distilling Semantic Priors from SAM to Efficient Image Restoration Models

从 SAM 中提取语义先验,形成高效的图像恢复模型

文章链接        代码链接(未公开)

摘要:在图像恢复(IR)中,利用分割模型的语义先验一直是提高性能的常用方法。最近的分段任何模型(SAM)已经成为提取高级语义先验以增强 IR 任务的强大工具。然而,与现有的较小 IR 模型相比,SAM 的计算成本对于 IR 来说过高。结合 SAM 来提取语义先验会极大地降低模型推理效率。为了解决这个问题,我们提出了一个通用框架来提炼 SAM 的语义知识,以增强现有的 IR 模型,而不干扰其推理过程。具体来说,我们提出的框架由语义先验融合(SPF)方案和语义先验蒸馏(SPD)方案组成。 SPF融合了原始IR模型预测的恢复图像和SAM预测的语义掩模之间的两种信息,以得到精细的恢复图像。 SPD 利用自蒸馏方式提取融合的语义先验,以提高原始 IR 模型的性能。此外,我们为 SPD 设计了语义引导关系(SGR)模块,确保语义特征表示空间的一致性,以充分提取先验。我们展示了我们的框架在多个 IR 模型和任务中的有效性,包括去雨、去模糊和去噪。

SAM-6D: Segment Anything Model Meets Zero-Shot 6D Object Pose Estimation

SAM-6D:SAM满足零样本 6D 物体姿态估计

文章链接        代码链接

摘要:零样本 6D 物体姿态估计涉及在杂乱场景中检测新物体及其 6D 姿态,这对模型的通用性提出了重大挑战。幸运的是,最近的分段任意模型(SAM)展示了出色的零样本传输性能,为解决这一任务提供了一个有前途的解决方案。受此启发,我们引入了 SAM-6D,这是一种新颖的框架,旨在通过两个步骤实现该任务,包括实例分割和姿态估计。给定目标对象,SAM-6D 采用两个专用子网络,即实例分割模型 (ISM) 和姿势估计模型 (PEM),在杂乱的 RGB-D 图像上执行这些步骤。 ISM 以 SAM 作为高级起点,生成所有可能的对象建议,并通过在语义、外观和几何方面精心设计的对象匹配分数选择性地保留有效的建议。通过将姿态估计视为部分到部分的点匹配问题,PEM 执行两阶段点匹配过程,采用背景标记的新颖设计来构建密集的 3D-3D 对应关系,最终产生姿态估计。在没有花哨的情况下,SAM-6D 在 BOP 基准的七个核心数据集上的实例分割和新物体的姿态估计方面都优于现有方法。

UnSAMFlow: Unsupervised Optical Flow Guided by Segment Anything Model

Un

你可能感兴趣的:(——研究中——,人工智能,计算机视觉)