VideoPrism模型论文速读:一种用于视频理解的基础视觉编码器

1. 引言

论文介绍了 VideoPrism,这是一个通用视频编码器,能够在多种视频理解任务中实现最先进的性能。VideoPrism 的目标是通过单一冻结模型处理不同的视频理解任务,包括分类、定位、检索、字幕生成和问答。

VideoPrism 在预训练过程中使用了大规模的视频-文本对数据和带有噪声平行文本的视频片段。预训练方法在掩码自动编码基础上进行了改进,通过全局-局部蒸馏语义视频嵌入和令牌洗牌方案,使 VideoPrism 能够专注于视频模态,同时利用与视频相关的文本信息。

2. 方法

2.1 预训练数据

VideoPrism 的预训练数据由 3600 万段带有高质量手动标注字幕的视频剪辑和 5.82 亿段带有噪声平行文本的视频剪辑组成。这些数据涵盖了多种领域,包括网页视频、脚本表演和科学实验等。

2.2 模型架构

VideoPrism 基于标准的视觉变换器(ViT),采用空间和时间的分解设计。模型去除了 ViViT 中的全局平均池化层,以便在输出令牌序列中保留空间和时间维度,从而支持需要细粒度特征的下游任务。

2.3 训练算法

训练算法包括两个阶段:视频-文本对比训练和掩码视频建模。

2.3.1 视频-文本对比训练

在第一阶段,通过对比学习对齐视频编码器和文本编码器,使用所有视频-文本对。训练过程中最小化小批量中所有视频-文本对的相似性分数的对称交叉熵损失。

2.3.2 掩码视频建模

在第二阶段,继续在视频-only 数据上训练视频编码器,采用改进的掩码视频建模方法。改进包括:要求模型根据未掩码的输入视频片段预测整个视频的全局嵌入和令牌级嵌入;在编码器输出令牌传递给解码器之前随机洗牌,避免学习捷径。

3. 实验

论文对 VideoPrism 在四个广泛类别的视频中心理解任务上进行了评估:一般的视频-only 理解、零样本视频-文本检索、零样本视频字幕生成和问答,以及科学领域的计算机视觉任务。

3.1 分类和时空定位

VideoPrism 在 VideoGLUE 基准测试中与最新的基础模型进行了比较。结果表明,VideoPrism 在所有数据集上均大幅领先基线模型,并且在从 ViT-B 升级到 ViT-g 时性能显著提升。

3.2 零样本视频-文本检索和分类

VideoPrism 在多个基准测试中实现了新的最先进性能,包括在 ActivityNet 上提升了 9.5%,在 SSv2-Events 上提升了 4.4%,在 Charades 上提升了 6.6 mAP。

3.3 零样本视频字幕生成和问答

VideoPrism 在视频字幕生成和问答任务上展示了强大的泛化能力,与冻结视觉和语言模型的方法相比具有竞争力,并且在大多数情况下排名第一。

3.4 科学领域的计算机视觉任务

VideoPrism 在多个科学数据集上的表现与领域专家模型相当或更优,展示了其在科学应用中的潜力。

4. 相关工作

论文讨论了基础模型(FMs)的发展,特别是在自然语言处理和计算机视觉领域。VideoPrism 通过结合视频和文本模态的优势,弥补了现有视频基础模型的不足。

5. 结论

论文总结了 VideoPrism 的主要贡献:提出了一种可扩展的预训练视频收集策略,设计了一种新颖的两阶段预训练方法,并在多种视频理解基准测试中取得了最佳性能。VideoPrism 的成功证明了其在多种实际视频理解任务中的潜在影响。

6. 影响声明

论文指出,视频理解技术的进步可以加速多个领域的发展,但也需要解决潜在的偏见和滥用问题。作者鼓励在开发这些新技术时进行开放讨论。

核心技术汇总表

VideoPrism模型论文速读:一种用于视频理解的基础视觉编码器_第1张图片

你可能感兴趣的:(VideoPrism模型论文速读:一种用于视频理解的基础视觉编码器)