整理:4篇论文介绍实时语义分割的未来,Transformer架构下的性能与效率平衡

在 Transformer 架构推动下,计算机视觉领域致力于打造一个极为强大且通用的大规模模型,它能处理物体检测、图像分割等多种任务。

不少基于 Transformer 架构的研究成果显著,其通用模型在特定应用中表现出色,在图像和视频分割方面,通用设计的研究成果也超越了以往定制模型。其中,分割一切模型(SAM)在交互式分割中表现突出,能统一应对点、边界框、掩码和文本输入等交互方式。 

然而,多数此类研究存在弊端。因采用重型编码器或级联解码器,在计算资源有限的设备上难以实现实时任务处理。

尽管模型性能强、功能多,但这一缺陷限制了它们在一些视觉应用中的使用,比如边缘设备上的编辑工具就难以实现。也有部分专注实时分割的研究,不过大多针对特定应用,或仅适用于类似视频语义分割的任务,通用性不足。目前,还没有能实现实时且处理所有分割任务的模型,即一个模型同时完成图像、视频和类似 SAM 的交互式分割。 

针对这些问题,我们总结出了四种具有实时性的语义分割,它们具有分割一切的性能。

论文1

优点与创新:

1. 我们引入了实时多用途分割,这是一种新颖的多任务分割方法,旨在对实时图像、视频和交互式输入中的对象进行分割。

2. 我们针对新设置对几种基于Transformer的实时分割方法进行了基准测试。

3. 我们提出了一个名为RMP - SAM的简单而快速的基线模型。它包含一个轻量级特征提取器、一个统一的解码器和两个非对称适配器。

4. 大量实验表明,RMP - SAM在提出的基准测试以及常规实时语义和全景分割基准测试中实现了最佳的速度和准确性权衡。我们还展示了该模型在不同数据集上的可扩展性以及应用演示。

论文2

优点与创新:

1. 运用数据引擎与注释人员协同循环工作,突破特定类别限制,为各类对象分割生成训练数据,生成效率比现有模型辅助方法快 8.4 倍。

2. 构建 SA - V 数据集,其掩码数量是现有视频分割数据集的 53 倍,数据涵盖小物体、遮挡与再现部件等复杂情况,地理分布多样且公平性表现良好。

3. SAM 2 在视频分割中以更少交互次数实现更高精度,在视频与图像分割基准测试中超越同类方法,速度大幅提升,在多种数据分布下均表现出色。

论文3

优点与创新:

1.我们提出了一种名为 SAMI 的、借助分割一切模型(SAM)的掩膜图像预训练框架,该框架训练模型从 SAM 的 ViT - H 图像编码器中重构特征。 

2.我们证明,经 SAMI 预训练的骨干网络能够很好地泛化到许多任务中,包括图像分类、目标检测和语义分割,并能够显著提升图像掩膜预训练方法的性能。 

3. 我们推出了高效分割一切模型(EfficientSAMs),这是一类轻量级的 SAM 模型,在质量与效率之间实现了最优权衡,对实际部署中的 SAM 形成补充。我们将发布代码和模型,以助力广泛的高效 SAM 应用。

论文4

优点与创新:

1.在传统知识蒸馏方法的基础上,创新性地提出硬挖掘全阶段知识蒸馏方法。该方法将教师网络的不同网络阶段都纳入监督体系,使得学生网络在学习过程中,能够从教师网络的各个层次获取知识。

2.为了更高效地实现教师网络与学生网络之间的信息传递,专门设计了掩码加权蒸馏损失。通过大量多样的 SA - 1B 掩码,根据掩码的特征对蒸馏损失进行加权。这意味着对于重要的、有代表性的掩码区域,在损失计算中赋予更高的权重,使得学生网络能够更加聚焦于关键信息的学习,从而实现从教师网络到学生网络的精准高效信息传递。

2.在蒸馏过程中,提出在线硬提示采样策略。该策略会实时对训练数据进行筛选,让蒸馏过程更加关注那些难以学习的样本,即硬例。通过不断学习这些硬例,模型能够更好地应对复杂情况,提升自身的泛化能力和鲁棒性,进而显著提升最终的模型性能,使其在各种任务中都能表现出色。

你可能感兴趣的:(transformer,深度学习,人工智能,语义分割)