【论文阅读】SAM2LONG: ENHANCING SAM 2 FOR LONGVIDEO SEGMENTATION WITH A TRAINING-FREE MEMORY TREE

SAM2LONG: ENHANCING SAM 2 FOR LONGVIDEO SEGMENTATION WITH A TRAINING-FREE MEMORY TREE

  • 原文摘要

    • 背景与问题:

      • SAM 2 是一种强大的基础模型,用于图像和视频中的对象分割。

      • 其记忆模块通过从先前帧提取对象感知记忆来辅助当前帧预测。

      • 但贪心选择的记忆设计存在“错误累积”问题,影响长视频分割性能。

    • 解决方案:

      • 提出 SAM2Long,一种无训练的视频对象分割策略。

      • 通过考虑每帧的分割不确定性,以约束树搜索方式选择最优分割路径。

      • 维护固定数量的分割路径,每帧生成多个掩码候选(在存在的分割路径上生成),选择累积得分较高的分支作为下一帧路径。

      • 在处理完最后一帧后,整条分割选择路径作为分割结果

    • 核心优势:

      • 启发式搜索设计,对遮挡和对象重新出现具有鲁棒性。

      • 无需额外参数或训练,显著提升长视频分割性能。

    • 实验结果:

      • 在六个视频对象分割(VOS)基准测试中一致优于 SAM 2。

      • 在长视频分割基准(如 SA-V 和 LVOS)中,J&F 指标平均提升 3.0 点,最高提升 5.3 点。

1. 介绍

1.1 SAM 2 的成就与局限性

  • SAM 2 是一种统一的基础模型,在图像和视频的提示性对象分割任务中表现出色,超越了以往方法。
  • 其记忆模块通过存储先前帧的上下文信息,支持视频帧的连续处理并保持对象一致性。
  • 然而,SAM 2 的贪心分割策略在处理遮挡和对象重新出现等复杂场景时表现不佳,存在**“错误累积”**问题。
    • 贪心分割策略: 每次mask生成时,总是选择得分最高的
      • 这种策略在简单情况下表现很好,但会提高在有难度的帧上的分割错误可能
      • 只要一个错误的mask被放入了内存中,那么会误导之后一系列帧的分割情况

【论文阅读】SAM2LONG: ENHANCING SAM 2 FOR LONGVIDEO SEGMENTATION WITH A TRAINING-FREE MEMORY TREE_第1张图片

1.2 改进动机

  • SAM 2 的掩码解码器在处理复杂和模糊情况时会生成多个掩码,但仅选择其中一个作为记忆,可能忽略正确掩码。
  • 通过引入多记忆路径,可以存储多个掩码作为记忆,从而改进后续帧的预测。

1.3 研究目标

  • 重新设计 SAM 2 的记忆模块,增强其长期分割能力和对遮挡及错误传播的鲁棒性。
  • 改进方法无需额外训练或引入外部参数,仅通过优化 SAM 2 自身潜力实现。

1.4 方法概述

  • 提出一种约束树记忆结构,维护固定数量的记忆路径,探索多个分割假设 — 通过有效的计算资源管理

  • 在每个时间步生成多个候选分支,选择累积得分较高的分支,修剪其他分支以限制树增长

    • 每个分支有自己的memory bank和累积得分(累积分数 = 路径中所有帧预测的 IoU 分数的对数和
    • 累积得分反应了整体分割质量
  • 在分割时,可能会因为遮挡,或对象重新出现过早收敛到错误的分割假设,导致结果不准确

    • 解决方案
      • 遮挡分数(occlusion scores)–用于衡量当前帧中目标对象被遮挡的程度。

        • 当遮挡分数较高时,表明当前帧的分割结果可能不确定或不准确。
      • 当遮挡分数指示不确定性时,选择**预测掩码显著不同(distinct)**的假设(hypotheses)。

  • 最终选择累积得分最高的路径作为分割结果,这种方式有效的克服了SAM2的错误积累

1.5 记忆模块优化

  • 构建对象感知记忆库,选择性存储高质量分割帧,避免存储遮挡或分割不佳的帧。

    • 通过遮挡分数和IoU分数来选择高质量分割帧
    • 相反,SAM2本身只会选择临近的帧来作为分割条件
  • 根据遮挡分数加权记忆条目,在交叉注意力中强调更可靠的条目,提高分割准确性。

1.6 研究意义

  • SAM2Long 为基于 SAM 2 的视频对象分割设定了新标准,在复杂实际应用中提供更优性能。
  • 改进方法简单高效,适用于各种视频分割任务,具有广泛的应用潜力。

2. 相关工作

2.1 视频目标分割 VOS

  • 视频目标分割旨在从视频序列中分割并跟踪特定目标,模仿人类对环境的对象感知能力。VOS 的研究近年来取得了显著进展,主要分为以下两种评估协议:(这两种协议都是在推理阶段定义的,VOS可以在训练阶段利用真实标注)

    • 半监督 VOS:提供第一帧的目标掩码,模型在后续帧中跟踪这些目标。

    • 无监督 VOS:模型直接从背景中分割出最显著的目标,无需参考信息。

2.2 基于记忆的 VOS

  • VOS 面临的主要挑战包括目标变形、动态运动、长时间消失后重现以及遮挡等问题。为了解决这些问题,必须应用一个记忆架构存储过去帧中的物体信息。

    • 过去解决VOS的方法:(非记忆读取架构)

      • 在线学习:在视频的第一帧中,目标对象被手动或自动标注(如提供掩码或边界框)。使用第一帧的标注信息,对预训练模型进行微调,使其适应目标对象的特征。微调后的模型被用于分割视频的后续帧,跟踪目标对象。-- drawback:time-consuming

      • 模版匹配模板通常是目标对象在第一帧或前几帧中的外观特征(如掩码、边界框或特征向量)。

        在后续帧中,模型通过匹配模板来定位和分割目标对象。-- drawback:缺乏遮挡处理能力

  • 基于记忆的 VOS 方法通过存储过去帧中的目标信息,来提升目标跟踪的准确性。

    • 像素级注意力:如 XMem和 Cutie,通过分层内存结构处理像素特征。

    • SAM 2:在 SAM 的基础上增加了简单内存模块,用于视频分割任务。

      • 然而,SAM 2 在处理长时间重现目标和相似目标时表现不佳。因此,研究者对 SAM 2 的内存设计进行了改进,使其能够维护多个潜在的正确掩码,从而提升模型的鲁棒性。

2.3 Segment Anything Model (SAM)

  • SAM 是一个里程碑式的视觉基础模型,能够通过交互式提示分割图像中的任何目标。其零样本迁移能力在分割、图像编辑和对象重建等任务中展现了强大的通用性。

  • SAM 2在 SAM 的基础上扩展了视频分割功能,通过基于记忆的 Transformer 架构实现实时视频处理。为了进一步提升 SAM 2,研究者引入了约束内存树结构,利用其生成多个候选掩码的能力,减少分割过程中的错误积累。


3. 方法

3.1 SAM 2 的初步介绍

3.1.1 图像编码器
  • SAM 2 使用图像编码器将每一帧输入编码为嵌入(embeddings)
  • 与 SAM 不同,SAM 2 引入了记忆模块,将当前帧的特征与先前帧提示帧的特征相结合。
3.1.2 记忆模块
  • **记忆库(Memory Bank):**每一帧处理完后,记忆库更新,存储最新的帧信息

    • 在时间步 t ≥ 1 时,SAM 2 维护一个记忆库 Mt,存储最近 N 帧的记忆条目。

    • 记忆库的定义为:
      M t = { M τ ∈ R K × C } τ ∈ T t \mathcal{M}_t = \{\mathbf{M}_\tau \in \mathbb{R}^{K \times C}\}_{\tau \in \mathcal{T}_t} Mt={MτRK×C}τTt
      其中:

      • Mt 是时间t的记忆库

      • Mτ 是记忆库中的一个记忆条目,表示帧 τ 的特征。

        • K 是每帧的记忆 token 数量,

        • C 是通道维度,即每个toekn的特征纬度

          • K*C表示矩阵的维度
        • I 是记忆中包含的帧索引集合,Imax<=N

    • 使用**先进先出(FIFO)**机制管理记忆库,确保记忆库中始终存储最新的 N 帧。

  • 记忆条目的组成:

    1. 空间嵌入(Spatial Embedding):
      • 与预测掩码融合的嵌入,由记忆编码器生成。
    2. 对象级指针(Object-level Pointer):
      • 掩码解码器生成的指向目标对象的信息。
  • 跨注意力机制(Cross-Attention):

    • 通过跨注意力机制,当前帧的特征与记忆库中的信息结合,整合了细粒度对应关系对象级语义信息
3.1.3 掩码解码器
  • 功能:

    • 掩码解码器为当前帧生成三个预测掩码,每个掩码附带一个预测的 IoU 分数和一个输出掩码 token(object- level)。
    • 预测一个遮挡分数 ot
      • ot > 0 表示目标对象存在,
      • ot < 0 表示目标对象不存在,
      • |ot | 表示模型的置信度。
  • 掩码选择:

    • 选择预测 IoU 分数最高的掩码作为最终预测。
    • 将被选择的掩码的输出 token 转换为对象指针,存储到记忆中,用于后续帧的分割。

3.2 具有不确定性处理的约束性记忆树

  • 增强 SAM 2 在长视频模糊场景中的鲁棒性。
  • 通过引入约束树记忆结构,探索多种对象状态,同时最小化计算开销。

【论文阅读】SAM2LONG: ENHANCING SAM 2 FOR LONGVIDEO SEGMENTATION WITH A TRAINING-FREE MEMORY TREE_第2张图片

  • 约束性记忆树的pipline
3.2.1 约束性记忆树的结构
  • 多路径维护

    • 在每一帧 t,维护 P 个记忆路径(pathways),每个路径包括:
      • 一个记忆库 Mtp(一共有p个记忆库)
      • 一个累积分数 Sp[t],表示到帧 t 为止的分割假设(同理,一共有p个分数)
  • 分支扩展:
    基于每个路径的记忆库,SAM 2 解码器生成三个掩码候选及其 IoU 分数IoU{p,t}1, IoU{p,t}2, IoU{p,t}3
    这样,每个路径扩展为三个候选分支,总共有 3P 个可能的路径。

  • 累积分数计算

    • 计算每个候选路径的累积分数:
      S p , k [ t ] = S p [ t − 1 ] + log ⁡ ( I o U t p , k + ϵ ) , k = 1 , 2 , 3 S_{p,k}[t] = S_p[t-1] + \log(IoU_{t}^{p,k} + \epsilon), k =1,2,3 Sp,k[t]=Sp[t1]+log(IoUtp,k+ϵ),k=1,2,3

    • 其中 ε 是一个小常数,防止对零取对数。

3.2.2 剪枝策略
  • 为了避免计算和内存成本过高,选择累积分数最高的前 P 个路径,继续到下一帧。
  • 剪枝策略:
    • 保留最有希望的分割假设,
    • 约束树结构的增长,确保计算效率。
3.2.3 最终结果选择 & 计算效率
  • 最终结果选择
    • 在处理完最后一帧后,选择累积分数最高的路径作为最终分割结果
  • 计算效率
    • 约束树记忆结构主要增加了掩码解码器和记忆模块的计算,但由于这些组件轻量级,整体计算成本增加有限。
    • 图像编码器仅处理一次,与 SAM 2 相同
3.2.4 不确定性处理
  • 问题:所有(即max)路径的遮挡分数 **|otP |**低于预设阈值 δconf 时,所有路径都不确定。
  • 解决方案
    • 选择unique的IoU 分数的掩码候选,以保持路径的多样性–避免模型过早收敛到错误的预测
  • 具体实现
    • 将IoU分数四舍五入到两位小数
    • 将四舍五入后不同的IoU分数对应的掩码候选–选择不同形状的掩码(Distinct-shaped Mask)
      • 例如,如果IoU{p,t}1=0.75 和 IoU{p,t}2= 0.76,则选择这两个掩码候选。
      • 如果IoU{p,t}1=0.75 和 IoU{p,t}2=0.75,则只选择其中一个掩码候选

3.3 对象感知记忆库构建

  • 构建一个对象感知的记忆库,提供有效的目标对象信息。
  • 通过记忆注意力调制,增强模型对目标对象的关注。
3.3.1 记忆帧的选择
  • 选择标准:
    从先前帧中选择具有高置信度目标对象高质量分割掩码的帧,构建记忆库。

  • 具体步骤:

    1. 从当前帧 t 的前一帧开始,依次检查每帧的**遮挡分数 oi ** 和 IoU 分数 IoUi --从 t 到1(就近帧对象特征显著)

    2. 如果帧 i 满足以下条件,则将其加入记忆库:

      IoUi > δIoU and oi > 0

      • 其中 δIoU 是预设的 IoU 阈值。
    3. 继续选择,直到记忆库中包含最多 N 帧。

  • 与 SAM 2 的区别:
    SAM 2 直接选择最近的 N 帧作为记忆条目,而 SAM2Long 通过筛选条件,过滤掉遮挡、目标缺失或分割不佳的帧,提供更鲁棒的目标对象信息。

3.3.2 记忆注意力调制
  • 目标:
    在交叉注意力计算中,强调更可靠的记忆条目,提升分割准确性。

  • 具体步骤:

    1. 定义标准权重:
    • 定义一组标准权重 Wstd,线性分布在Wlow和 Whigh 之间:

    W s t d = { w l o w + i − 1 N ( w h i g h − w l o w ) } i = 1 N + 1 W_{std} = \left\{ w_{low} + \frac{i-1}{N} (w_{high} - w_{low}) \right\}_{i=1}^{N+1} Wstd={wlow+Ni1(whighwlow)}i=1N+1

    • 其中
      • Wstd
        表示标准权重的集合,包含 N+1 个权重值。
      • wlowwhigh
        分别是权重的下限上限
    1. 排序遮挡分数:

      • 将记忆条目的遮挡分数按升序排序,得到排序后的索引,使得:oI ≤ oI2 ≤ ⋯ ≤ oIN+1
    2. 分配权重

      • 根据排序后的索引,将标准权重分配给记忆条目:

      w I i = W i s t d , 对于 i = 1 , 2 , … , N + 1 w_{I_i} = W_i^{std}, \quad \text{对于} \quad i = 1, 2, \ldots, N+1 wIi=Wistd,对于i=1,2,,N+1

    3. 调整记忆键

      • 将原始记忆键 Mτ 与对应权重相乘,得到调制后的记忆键 M̃τ:

      M ~ τ = w τ ⋅ M τ , 对于 τ ∈ I \tilde{M}_\tau = w_\tau \cdot M_\tau, \quad \text{对于} \quad \tau \in I M~τ=wτMτ,对于τI

​ 然后更新对应记忆键


4. 实验

4.1 数据集

  • SA-V:大规模、多样化场景,包含小目标和遮挡。
  • LVOS v1/v2:长期对象分割,强调对象重新出现和泛化能力。
  • MOSE:复杂真实场景,高质量分割掩码。
  • VOST:复杂对象变换,对象外观显著变化。
  • PUMaVOS:挑战性分割任务,标注边界与视觉线索不对齐。

4.2 主要结果

4.2.1 SAM2Long 对 SAM 2 的改进
  • 整体表现:
    SAM2Long 在所有模型大小和数据集上均显著优于 SAM 2。
    • 在 SA-V 验证集和测试集以及 LVOS v2 验证集上,SAM2Long 的平均性能提升了 3 个 J & F 分数点
    • 例如,SAM2Long-Large 在 SA-V 验证集和测试集上分别比 SAM 2 提升了 4.55.3 分。
    • 在 LVOS 验证集上,SAM2Long 对每个模型大小均表现出显著的性能提升。
  • 训练免费记忆树的有效性:
    • 结果表明,​训练免费记忆树 在长期视频分割场景中显著提升了模型性能。
4.2.2 SAM2Long 与现有方法的对比
  • SA-V 数据集:
    • SAM2Long 在 SA-V 验证集上的 J & F 分数为 81.1,比 SAM 2.1 提升了 2.5 分。
  • LVOS 数据集:
    • 在 LVOS v1 和 v2 子集上,SAM2Long 的 J & F 分数分别为 83.485.9,比 SAM 2.1 提升了 3.21.8 分。
  • 未见类别的表现:
    • SAM2Long 在未见类别上的 J 和 F 分数分别为 79.186.2,比 SAM 2 提升了 7.55.1 分,展示了其强大的泛化能力。
4.2.3 SAM2Long 在处理多样化挑战中的表现
  • PUMaVOS 数据集:
    • SAM2Long 的 J & F 分数为 82.4,比 SAM 2.1 提升了 1.3 分,展示了其在处理视觉线索模糊任务中的优势。
  • VOST 数据集:
    • SAM2Long 的 J & F 分数为 54.0,比 SAM 2.1 提升了 1 分,展示了其在处理极端对象变换任务中的优势。
  • MOSE 数据集:
    • SAM2Long 的 J & F 分数为 75.2,比 SAM 2.1 提升了 0.7 分,展示了其在处理复杂真实场景任务中的优势。
  • YouTube-VOS 数据集:
    • SAM2Long 和 SAM 2.1 的 J & F 分数均为 88.7,表明 SAM2Long 在短期视频分割任务中保持了 SAM 2 的基本能力。

4.3 消融实验 Ablation Study

  • 什么是消融实验
    • 消融实验(Ablation Study) 是一种用于评估模型或算法中各个组件或参数对整体性能贡献的实验方法。通过逐步移除或修改模型中的某些部分,观察性能变化,从而理解每个组件的作用和重要性。
      • 包括移除/替换模块、修改参数、组合组件

以下是 4.3 消融实验(ABLATION STUDY) 的详细分析:

4.3.1 实验设置
  • 数据集:
    使用 SA-V 数据集的验证集进行实验。
  • 默认模型:
    使用 SAM2-Large 作为默认模型大小。
4.3.2 记忆路径数量 P 的影响
  • 实验目的:
    评估记忆路径数量对 SAM2Long 性能的影响。
  • 实验结果:
    • P = 1:退化为 SAM 2 基线模型。
    • P = 2:J & F 分数提升至 80.1,表明记忆树有效提升了模型的跟踪能力。
    • P = 3:达到最佳性能,J & F 分数进一步提升。
    • P = 4:性能无显著提升,表明 P = 3 在准确性和计算效率之间达到了最佳平衡。
  • 计算效率:
    • 使用 P = 3 时,处理速度仅减慢 18%,GFlops 增加 8%,但性能提升了 4.5 分。
4.3.3 IoU 阈值 δ_IoU 的影响
  • 实验目的:
    评估 IoU 阈值对选择高质量帧的影响。
  • 实验结果:
    • δ_IoU = 0.3:J & F 分数最高,表明在过滤低质量帧和保留有价值信息之间达到了最佳平衡。
    • δ_IoU = 0:J & F 分数降至 80.0,表明低质量帧会损害模型性能。
    • δ_IoU = 0.9:J & F 分数降至 77.8,表明过于严格的筛选会排除潜在重要帧,导致模型依赖过远的帧作为记忆。
4.3.4 不确定性阈值 δ_conf 的影响
  • 实验目的:
    评估不确定性阈值对处理不确定情况的影响。
  • 实验结果:
    • δ_conf = 2:J & F 分数最高,表明在处理不确定情况时达到了最佳水平。
    • δ_conf = 0.5:性能下降,表明过早选择错误的分割假设会导致错误传播。
    • δ_conf = 5:性能无进一步提升,表明超过一定阈值后,模型无法从额外的掩码多样性中受益。
4.3.5 记忆注意力调制 [w_low, w_high] 的影响
  • 实验目的:
    评估记忆条目注意力权重的调制范围对性能的影响。
  • 实验结果:
    • [1, 1]:无调制,性能较低。
    • [0.95, 1.05]:J & F 分数最高,表明轻微的调制足以强调可靠的记忆条目。
    • [0.9, 1.1]:性能略有下降,表明调制范围过大可能引入噪声。
4.3.6 主要结论
  • 记忆路径数量:
    P = 3 在准确性和计算效率之间达到了最佳平衡。
  • IoU 阈值:
    δ_IoU = 0.3 在过滤低质量帧和保留有价值信息之间达到了最佳平衡。
  • 不确定性阈值:
    δ_conf = 2 在处理不确定情况时达到了最佳水平。
  • 记忆注意力调制:
    [0.95, 1.05] 的轻微调制足以强调可靠的记忆条目。

你可能感兴趣的:(计算机视觉,论文阅读,计算机视觉,机器学习)