note

(一)现有的 MM-LLM 的趋势:
(1)从专门强调 MM 理解对特定模态的生成的进展,并进一步演变为任何到任何模态的转换(例如,MiniGPT-4 → MiniGPT-5 → NExT-GPT);
(2) 从 MM PT 提升到 SFT,然后到 RLHF,训练管道进行连续细化,努力更好地与人类意图对齐并提高模型的会话交互能力(例如,BLIP-2 → InstructBLIP →DRESS);
(3) 实施多样化模态扩展(例如,BLIP-2 → X-LLM 和 InstructBLIP→X-InstructBLIP);
(4) 结合更高质量的训练数据集(例如,LLAVA → LlaVA1.5);
(5) 采用更有效的模型架构,从 BLIP-2 和 DLP 中的复杂 Q-Former 输入投影仪模块过渡到更简单但有效的 VILA。

(二)更高分辨率编码器能为LLM提供更多图像信息,但也带来更长的sequence token。如LLAVA-1.5 和 VILA 采用 336 × 336 的分辨率,而 Qwen-VL 和 MiniGPT-v2 利用 448 × 448。
(三)还是要使用高质量的SFT图文数据,如LLAVA-1.5和VILA-13B中加入ShareGPT4V数据证明了这一点。
(四)VILA揭示了几个关键发现:
(1)在LLM主干上执行PEFT促进了深度嵌入对齐,这对ICL至关重要;
(2)交错的图像-文本数据被证明是有益的,而单独的ImageText对是次优的;
(3)在SFT期间,将纯文本指令数据(如不自然的指令(Honovich et al., 2022))与图像文本数据重新混合-用于微调,不仅解决了纯文本任务的退化,而且提高了VL任务的准确性。

文章目录
  • note
  • 综述一:A Survey on Multimodal Large Language Models
  • 一、多模态LLM的组成部分
  • (1)模态编码器
  • (2)语言模型
  • (3)连接器
  • 二、预训练
  • 三、SFT微调
  • 四、RLHF对齐训练
  • (1)使用常见的PPO
  • (2)使用DPO直接偏好对齐
  • (3)常见用于对齐的偏序数据集
  • 综述二:MM-LLMs: Recent Advances in MultiModal Large Language Models
  • 一、主流的MM-LLMs分类
  • 二、MM-LLM的不同模块
  • 三、主流MM LLM的效果
  • Reference

综述一:A Survey on Multimodal Large Language Models

论文链接:https://arxiv.org/pdf/2306.13549.pdf

项目链接:https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models

2024年4月1号更新的一篇paper。

【LLM】两篇多模态LLM综述MultiModal Large Language Models_第1张图片

一、多模态LLM的组成部分

常见的多模态LLM结构:

【LLM】两篇多模态LLM综述MultiModal Large Language Models_第2张图片

  • 对于多模态输入-文本输出的典型 MLLM,其架构一般包括编码器、连接器以及 LLM。
  • 如要支持更多模态的输出(如图片、音频、视频),一般需要额外接入生成器,如上图所示
  • 三者的参数量并不等同,以 Qwen-VL [1] 为例,LLM 作为“大脑”参数量为 7.7B,约占总参数量的 80.2%,视觉编码器次之(1.9B,约占 19.7%),而连接器参数量仅有 0.08B。
(1)模态编码器
  • 模态编码器:模态编码器负责将原始的信息(如图片)编码成特征,连接器则进一步将特征处理成 LLM 易于理解的形式,即视觉 Token。LLM 则作为“大脑”综合这些信息进行理解和推理,生成回答。
  • 视觉编码器:对于视觉编码器而言,增大输入图片的分辨率是提升性能的有效方法。
  • 一种方式是直接提升分辨率,这种情况下需要放开视觉编码器进行训练以适应更高的分辨率,如 Qwen-VL [1] 等。
  • 另一种方式是将大分辨率图片切分成多个子图,每个子图以低分辨率送入视觉编码器中,这样可以间接提升输入的分辨率,如 Monkey [2] 等工作。
  • 除了常用CLIP图像编码器,像MiniGPT-4使用了EVA-CLIP、ViT-G/14编码器。一些常用的图像编码器:

【LLM】两篇多模态LLM综述MultiModal Large Language Models_第3张图片

(2)语言模型

【LLM】两篇多模态LLM综述MultiModal Large Language Models_第4张图片

(3)连接器

【LLM】两篇多模态LLM综述MultiModal Large Language Models_第5张图片

  • 连接器:相对前两者来说,连接器的重要性略低。
  • 从上图中可以看出连接器有三种形式:projection-based、query-based、fusion-based connectors(第三种是使用MHA多头注意力)
  • 例如,MM1 [7] 通过实验发现,连接器的类型不如视觉 token 数量(决定之后 LLM 可用的视觉信息)及图片的分辨率(决定视觉编码器的输入信息量)重要。

在后面第二篇综述中也有介绍到连接器(叫Input projector更合适):