三分钟!快速了解 DeepSeek-VL视觉语言大模型!

两张图三分钟

代码和文档介绍详见GitHub:
https://github.com/deepseek-ai/DeepSeek-VL/tree/main/deepseek_vl

下面用两张图三分钟,介绍一下DeepSeek-VL。

模型结构

三分钟!快速了解 DeepSeek-VL视觉语言大模型!_第1张图片
这张图展示了DeepSeek-MoE模型处理视觉输入并生成语言输出的流程,具体如下:

  • 图像预处理:右下角的实际图像(有南瓜等装饰的场景图)首先通过“Dynamic Tiling”(动态平铺)技术进行处理,将图像分割成适合模型处理的部分。
  • 视觉特征提取:处理后的图像数据进入“Vision Encoder”(视觉编码器),将图像信息转化为计算机可理解的特征表示,即生成“Image tokens”(图像令牌)。
  • 视觉-语言适配:“Image tokens”接着传输到“VL Adaptor”(视觉-语言适配器),它负责将视觉特征转换为能与语言模型兼容的格式,建立起视觉和语言之间的联系。
  • 语言模型处理与输出:适配后的信息连同文本指令“Describe this image in detail .”一起输入到“DeepSeek-MoE”语言模型中。模型对这些信息进行综合处理,最终生成语言输出,如“This image displays …” ,即对图像内容进行详细描述。

训练管线

三分钟!快速了解 DeepSeek-VL视觉语言大模型!_第2张图片
这是一幅展示DeepSeek-VL2模型训练流程的示意图,分为三个阶段,每个阶段用不同模块和数据的交互来说明训练过程,具体如下:

第一阶段:Training VL Adaptor(训练视觉-语言适配器)

  • 数据输入:底部“Image-Text Pairs”表示该阶段使用图像-文本配对数据进行训练。
  • 模型模块:“Hybrid Vision Encoder”(混合视觉编码器)包含“SAM-B”和“SigLIP-L”,用于处理输入图像,图标为雪花表示该模块在这个阶段处于冻结状态,不进行参数更新;“Vision-Language Adaptor”(视觉-语言适配器)负责连接视觉和语言信息,图标为火焰表示处于训练状态,会更新参数;“DeepSeek LLM”(语言模型)同样图标为雪花,即此阶段语言模型参数固定。
  • 训练目的:在固定语言模型和视觉编码器的情况下,训练视觉-语言适配器,初步建立视觉和语言特征的联系。

第二阶段:Joint VL Pre-training(联合视觉-语言预训练)

  • 数据输入:“Interleaved VL + Pure Language Sequences”,即交错的视觉-语言数据和纯语言序列数据。
  • 模型模块:此阶段“Hybrid Vision Encoder”依旧有雪花图标,保持冻结;“Vision-Language Adaptor”和“DeepSeek LLM”图标都为火焰,表明所有参数都被解锁并同时进行训练。
  • 训练目的:利用大量混合数据进行预训练,增强模型对视觉-语言联合知识的理解,提升多模态处理能力。

第三阶段:Supervised Finetuning(监督微调)

  • 数据输入:“VL Chat Data + Pure Language Chat Data”,即视觉-语言对话数据和纯语言对话数据。
  • 模型模块:“Hybrid Vision Encoder”“Vision-Language Adaptor”和“DeepSeek LLM”图标均为火焰,意味着所有模型组件的参数都在该阶段进行优化调整。
  • 训练目的:通过有监督的微调,结合特定的对话数据,让模型更好地遵循指令,提升对话能力和在各类视觉-语言任务上的表现。

你可能感兴趣的:(机器学习笔记,人工智能,transformer)