Video-LLaMA An Instruction-tuned Audio-Visual Language Model for Video Understanding 用于视频理解的指令调谐视听语言

1.摘要

我们提出了一个多模态框架Video-LLaMA1,它使大型语言模型(LLM)能够理解视频中的视觉和听觉内容。视频-来自冻结的预训练视频和音频编码器和冻结的LLM的美洲驼引导跨模式训练。不像以前的工作,补充线性最小二乘法只处理视觉或听觉信号(朱等,2023;刘等,2023;Huang et al .,2023a),Video-LLaMA通过解决两个挑战来实现视频理解:(1)捕捉视觉场景的时间变化,(2)整合视听信号。为了应对第一个挑战,我们提出了一个视频Q-former来将预训练的图像编码器组装到我们的视频编码器中,并引入视频到文本生成任务来学习视频语言的对应性。对于第二个挑战,我们利用ImageBind (Girdhar等人,2023年),一种对齐多种模态的通用嵌入模型,作为预训练的音频编码器,并在ImageBind之上引入音频Q-former,以学习LLM模块的合理听觉查询嵌入。为了将视频和音频编码器的输出与LLM的嵌入空间对齐,我们首先在大量视频/图像-字幕对上训练视频LLaMA,然后用中等数量但更高质量的视觉指令数据集调整我们的模型。我们发现视频——美洲驼表现出感知和理解视频内容的能力,并根据视频中呈现的视觉和听觉信息产生有意义的反应

Video-LLaMA1: 大语言模型理解视频内容(视觉+听觉内容)

目标:解决视频理解的两个挑战。

        (1)捕捉视觉场景时间变化

        引入视频Q-former:学习视觉语言的对应性。

        (2)整合试听信号

        引入音频Q-former:学习合理的试听听觉查询嵌入。【?怎么学的呢?】

视频Q-former的学习

        与训练图像编码器组装到视频编码器。

        视频->文本生成 任务,学习视频和文本对应性。

 将视频和音频编码器的输出与LLM的嵌入空间对齐:

        视频|图像-字幕训练LLaMA。

        中等数量,高质量视觉指令集调整模型。     

2.研究意义及价值

  •  对于许多应用场景来说,只有文本的人机交互是不够的,因为真实世界的信息通常是多模态的。为了进一步挖掘LLMs的潜力,许多研究者试图赋予LLMs理解多模态内容的能力。
  • 尽管它们有效,但是这些方法致力于将来自一个附加模态的输入与文本(即,图像或音频)对齐,这对于视频理解来说是不令人满意的。具体来说,使LLM能够理解视频需要对不同的模态进行综合处理,包括视觉输入、听觉输入和文本输出,这比只理解图像和只理解音频的任务更具挑战性
  • 在这项工作中,为了填补视听LLM的空白,我们研究了构建多模态LLM的可能性,该多模态LLM支持视频输入,并允许用户围绕用户上传的视频与计算机聊天,该视频通常由多个视频帧和音频组成。

本文认为

  1. 现实世界的信息是多模态的,只有文本的交互不够,所以我们要探索多模态LLMs的潜能。
  2. 现有的方法总是视觉模态+文本模态捆绑模式,所以当前模型对视频理解能力差,尤其是对音频的理解能力。
  3. 该项工作探索了多模态LLMs,填补了音频LLM空白,实现计算机能够理解用户发送的视频的聊天形式。

实现思路:        

        保证跨通道与训练的效率:采用BLIP-2的思想

        明确捕捉视觉场景变化:用与训练视觉编码器分解计算帧表示

                帧嵌入层注入时间

                视频Q-Former生成可是查询令牌

        视频中音频的处理:与训练的音频编码器及音频Q-former来学习合理的听觉嵌入。

------------------------------------------------------------------------------------------------------------------------

文本输出与视频对齐:

        多分支跨模态预训练学习——>视觉语言对应+音频语言对应。

视觉语言对齐

        首先:大规模视频字幕数据集使用视频CLIP到文本的生成任务对视觉相关组间进行预训练。

                预训练阶段引入图像字幕数据集——>加强对静态视觉概念的理解。

        然后:使用视频对话的数据集微调这些组件,为指令优化做准备。

音频编码器+语言编码器的对齐

                音频——>使用音频文本数据集在音频文本生成任务上预训练相关组件。

                音频文本的衔接:使用Imagebind将不同模态与公共嵌入空间对齐

                音频文本数据集有限——>视觉文本数据训练音频相关组件【这合理吗?

总结:

        这些组件学习将Imagebind提供的公共嵌入空间与LLMs的嵌入空间对齐。尽管没有经过音频-文本数据的明确训练,Video-LLaMA在推理过程中表现出显著的零镜头音频理解能力

-----------------------------------------------------------------------------------------------------------------------

Video-LLaMA与现有模型相比表现出色,对视听模态信息理解全面:

创新型

        1.一个多模态框架,弥补了音频LLM空白,使LLM同时处理视频中的视觉+听觉内容。

        2.多分支跨通道预训练框架来实现视觉语言对齐和音频语言对齐

        3.开源了权重和代码

Video-LLaMA An Instruction-tuned Audio-Visual Language Model for Video Understanding 用于视频理解的指令调谐视听语言_第1张图片

3.方法设计

Video-LLaMA旨在使冷冻LLM能够理解视频中的视觉和听觉内容

两个主要的分支:

        视觉语言分支和音频语言分支,分别将视频帧和音频信号转换为与LLMs的文本输入兼容的查询表——多分支跨模态预训练和视听教学调谐

架构

        视觉-语言模型

        音频-语言模型

        多分支跨模态训练:A+B两个分支

                第一阶段,大规模视觉字幕数据集用于训练

                第二阶段,高质量的指令跟随数据集用于微调。图像被视为单帧视频

  •                 视觉语言训练
  •                 音频语言

视频语言模型

如图1的左部所示,它包括

        一个冻结的预训练图像编码器,用于从视频帧中提取特征

        一个位置嵌入层,用于将时间信息注入视频帧

        一个视频Q-former,用于聚合帧级表示

        一个线性层,用于将输出视频表示投影到与LLM的文本嵌入相同的维度

        实现:利用BLIP-2(李等,2023b)的预训练视觉组件作为冻结视觉编码器,它包括来自EVA-CLIP(方等,2022)的ViT G/14和预训练Q-former

Video-LLaMA An Instruction-tuned Audio-Visual Language Model for Video Understanding 用于视频理解的指令调谐视听语言_第2张图片

音频语言模块

如图1的右部所示,它包括

        一个预训练的音频编码器,用于在给定一小段原始音频的情况下计算特征

        一个位置嵌入层,用于将时间信息注入音频段

        一个音频Q-former,用于融合不同音频段的特征

        一个线性层,用于将音频表示映射到LLMs的嵌入空间

        Video-LLaMA An Instruction-tuned Audio-Visual Language Model for Video Understanding 用于视频理解的指令调谐视听语言_第3张图片

多分支跨模态训练-视频文本

阶段一

        目标:使用大数据,使视频特征包含尽可能多的视觉知识。

        问题:视频表示使用冻结的LLMs生成的文本,不足以描述完整的视频。

        原因:视频语义与视频文本语义并不完全一致

        数据集

                Webvid-2M:短视频数据集

                CC59K:CC3M过滤的图像字幕数据集

        结果:能够生成视频信息内容,但遵循指令能力下降

-------------------------------------------------------------------------------------------------------------------------

阶段二

        目标:视觉文本对齐 指令跟随能力——>使用高质量数据集微调

        数据集

                MiniGPT4:图像细节描述数据集

                LLaVA:图像指令数据集

                Video-chat: 视频指令数据集

        结果:理解图像和视频方面表现出非凡的能力

多分支跨模态训练-音频文本

目的:将冻结音频编码器的输出嵌入与LLM的嵌入空间对准

问题:音频文本数据的稀缺

解决:变通思路

        ImageBind音频编码器,具有将不同模态的beddings排列到一个公共空间的能力,在跨模态检索和生成任务中表现优秀。

        鉴于音频文本数据的稀缺和视觉文本数据的丰富,使用视觉文本数据训练音频语言分支,遵循与视觉分支相同的数据和过程

结果

        由于ImageBind提供的共享嵌入空间,Video-LLaMA在推理过程中表现出理解音频的能力,即使音频接口从未在音频数据上训练过。

4.相关工作

大型语言模型:

        本文的工作基于这些LLM,并提供即插即用插件,使其能够理解视频中的视觉和听觉内容。

多模态大型语言模型

        现有的方法可以分为两大类。

        第一类包括使用LLM作为控制器和利用现有的多模态模型作为工具

        当接收到用户的文本指令时,LLM识别出用户的注意力,并决定调用哪些工具。然后,它通过整合从这些现成的多模态模型中获得的结果,生成全面的响应。

        第二类集中于训练基本的大规模多模态模型

        关键思想是将用于其他模态的预训练基础模型与文本LLM对齐。

        本文的工作属于第二类,训练基本模型来理解视频中的视觉和听觉内容。

5.实验

展示Video-LLaMA在基于视频/音频/图像的转换中的多模态指令跟随能力

(1)视听整合感知能力-图2(a)和图3

        同时理解听觉和视觉信息的独特能力。两种情况下的视频都包含音频。

        在每次对话中,分别提出两个与视觉和听觉内容相关的问题。如果模型只能接收一个模态,它将无法回答这两个问题。

        结果:在两种情况下都能准确地回答视觉和听觉问题。

(2)捕捉视频中时间动态的能力-图2(b)和图4

        识别动作的能力。它成功地描述了女孩的动作和船的移动方向。

(3)感知和理解静态图像的能力。

        感知和理解图片的能力-图2c+图5

                理解“不寻常”的概念和具体描述不寻常场景的能力-图2c

                不仅准确地描述了主要内容,而且还将它与狗和人之间的友好交互联系起来-图5

(4)常识概念识别能力-图2d+图6

        能成功识别著名的地标和人物,并能进行常识性的问答

Video-LLaMA An Instruction-tuned Audio-Visual Language Model for Video Understanding 用于视频理解的指令调谐视听语言_第4张图片

Video-LLaMA An Instruction-tuned Audio-Visual Language Model for Video Understanding 用于视频理解的指令调谐视听语言_第5张图片     Video-LLaMA An Instruction-tuned Audio-Visual Language Model for Video Understanding 用于视频理解的指令调谐视听语言_第6张图片

Video-LLaMA An Instruction-tuned Audio-Visual Language Model for Video Understanding 用于视频理解的指令调谐视听语言_第7张图片

Video-LLaMA An Instruction-tuned Audio-Visual Language Model for Video Understanding 用于视频理解的指令调谐视听语言_第8张图片

6.总结与限制讨论

Video-LLaMA:一个前沿的多模态框架,它为大型语言模型提供了音频和视频支持。

视听人工智能助理的一个有前途的原型的潜力

它仍然是早期的原型,并且具有一些局限性,包括:

(1)有限的感知能力:

        Video-LLaMA的性能受到当前训练数据集的质量和规模的阻碍。

(2)处理长视频的能力有限。

        长视频(如电影和电视节目)包含大量信息,对计算资源提出了更高的要求。

(3)幻觉。

        Video-LLaMA 继承了冷冻LLMs的幻觉问题。

7.读后感

1.其创新点是支持音频吗?还是处理视频的时序信息吗?

        其创新点是既能支持音频又能支持视频信息,以使模型能够从各个模态理解视频内容。

2.这里的多模态和之前的多模态有什么区别?

        之前的多模态,把各个模态映射到一个公共空间,这里的多模态把各个模态映射到文本空间。最终以文本模态来表达对内容的理解。

3.本文工作的核心内容是什么?

        弥补之前视频理解时听觉模态缺失的问题。

        提供了听觉数据缺失问题的变通方法:

         ImageBind音频编码器,具有将不同模态的beddings排列到一个公共空间的能力,在跨模态检索和生成任务中表现优秀。

        鉴于音频文本数据的稀缺和视觉文本数据的丰富,使用视觉文本数据训练音频语言分支,遵循与视觉分支相同的数据和过程

4.视频理解能力指的是什么?

        根据视频的视觉内容+听觉内容+文本内容——>视频内容描述文本

5.模型实现是怎样的?

模态模板: 输入->编码器->位置层嵌入->Q-former->线性层->LLM

冻结的预训练图像编码器,用于从视频帧中提取特征

位置嵌入层,用于将时间信息注入视频帧

视频Q-former,用于聚合帧级表示

线性层,用于将输出视频表示投影到与LLM的文本嵌入相同的维度

预训练的音频编码器,用于在给定一小段原始音频的情况下计算特征

位置嵌入层,用于将时间信息注入音频段

音频Q-former,用于融合不同音频段的特征

线性层,用于将音频表示映射到LLMs的嵌入空间

冻结的LLM

你可能感兴趣的:(论文与代码,llama,语言模型,人工智能)