作者
Nikhila Ravi, Valentin Gabeur, Yuan-Ting Hu, Ronghang Hu 等 (Meta FAIR)
SAM2 是一个用于处理图像和视频分割的统一模型。基于最初的 Segment Anything Model (SAM),SAM2 将其能力从静态图像扩展到视频分割。其关键特点在于 Transformer 架构和 流媒体记忆,允许实时处理视频并利用之前的帧信息作为参考来提高分割的准确性。SAM2 不仅在图像上表现出色,在视频分割上也显示出更好的交互效率和准确性。
**PVS(Prompt-based Video Segmentation)**任务允许在视频的任意帧上向模型提供提示。这些提示可以是正/负点击、边界框或蒙版,旨在定义需要分割的目标对象或细化模型预测的结果。为了提供交互式体验,当模型在特定帧上收到提示时,应该立即做出反应并返回该帧上目标对象的有效分割掩码。
例如,图2 展示了如何在不同帧上提供提示,进而影响整个视频中的分割效果。
##SAM2(Segment Anything Model 2) 是为 PVS 任务 设计的一个数据收集工具,旨在通过提示驱动的方式构建 SA-V 数据集。SAM2 不仅能够在图像上执行分割任务,还能够在视频上执行分割并传播提示,以获得目标对象的完整分割信息。
PVS 任务通过提示驱动的方式,实现了视频中目标对象的交互式分割任务,而 SAM2 模型在这一任务中发挥了重要作用。通过收集大量视频数据,SAM2 使得 SA-V 数据集成为可能,并且在各种场景下(包括在线交互、半监督视频分割和图像分割)均表现出色。
SAM2 采用了一个轻量的 Transformer 架构来处理图像和视频的分割任务。模型通过一个流式架构来处理视频帧,结合 记忆注意力模块 来引用过去的帧信息,以提高预测的准确性。其核心组件包括:
SAM2(Segment Anything Model 2)在原始的 SAM 模型基础上扩展,能够处理图像和视频帧的分割任务。它被设计用于交互式分割任务,利用点击、边界框或蒙版等提示,动态细化分割结果,并将这些提示传播到整个视频序列中。
图像编码器 负责以流式处理的方式处理视频帧。它在整个交互过程中只运行一次,生成每帧的 无条件特征嵌入(tokens)。SAM2 使用了 MAE 预训练的 Hiera 图像编码器,支持多尺度特征解码,以提高处理效率。
记忆注意力模块 的作用是基于之前帧的特征和预测结果,以及任何新的提示,来调整当前帧的特征。该模块由堆叠的 Transformer 块 组成。第一个 Transformer 块处理当前帧的图像编码,接下来的块执行 自注意力 和 交叉注意力,引用存储在 记忆库 中的提示帧和未提示帧的记忆。这种注意力机制让 SAM2 能够利用最新的 高效注意力核 技术,以更高效地理解整个视频的对象分割情况。
提示编码器 设计用于处理提示(如点击、边界框或蒙版),这些提示帮助定义给定帧中感兴趣的对象。提示可以是稀疏的(如点击)或密集的(如蒙版),它们与帧嵌入一起嵌入到模型中,并传递给 掩码解码器,后者预测该帧的分割掩码。
记忆编码器 生成记忆,通过卷积模块对输出掩码进行降采样,并将其与图像编码器的无条件帧嵌入相加。然后通过轻量级卷积层融合信息,创建高效的记忆表示,供未来帧使用。
记忆库 存储了过去帧的处理结果,最多保留 N 个最近帧 和 M 个提示帧。在视频对象分割(VOS)任务中,初始提示帧(带有标注的第一帧)会被存储在记忆库中,其他最近的帧也会被存储为参考。这些记忆被存储为空间特征图,模型可以随时引用以改善未来帧的分割结果。
SAM2 在图像和视频数据上联合训练。模型在训练时模拟交互式提示,采样 8 帧序列,并随机选择最多 2 帧进行提示。根据模型的预测,随机提供纠正性的点击提示。训练任务是逐步预测 masklet(整个视频的分割结果)。
SAM2 扩展了原始 SAM 模型的功能,能够处理视频分割任务,并在交互式提示的基础上提供更加精确的分割结果。该架构设计允许模型在实时处理帧的同时,利用过去的预测和提示生成整个视频的分割掩码。SAM2 的 提示编码器 和 轻量级掩码解码器 使得它能够动态响应用户提示,实时更新分割结果。
SAM2 使用了全新的 Segment Anything Video (SA-V) 数据集。该数据集包含 35.5M 个蒙版,跨越 50.9K 个视频,远超以往的分割数据集。SA-V 数据集的生成是通过一个包含 SAM2 的数据引擎实现的,这使得注释速度提高了 8.4 倍。
实验显示,SAM2 在图像和视频分割上表现出了卓越的效果:
未来工作可能包括:
SAM2 未来的工作可能包括进一步优化模型的交互性能和泛化能力,尤其是在应对复杂视频场景时。此外,模型的记忆机制可以进一步改进,以便更好地处理长时间序列和快速移动的物体