Multimodal Foundation Models: From Specialists to General-Purpose Assistants

Multimodal Foundation Models: From Specialists to General-Purpose Assistants

基本信息

博客贡献人

燕青

作者

Chunyuan Li, Zhe Gan, Zhengyuan Yang, et al.

标签

LLM, Multimodality

摘要

近年来,人工智能领域在模型发展方面经历4个阶段,如图1所示。

  • 任务特定的模型是针对单个数据集和任务开发的,通常从零开始训练。
  • 通过大规模预训练,语言模型在许多既定的语言理解和生成任务上取得了先进的性能,为下游任务适配提供了基础。
  • 将各种语言理解和生成任务统一到一个模型中。随着网络规模的训练和统一,出现了一些新兴能力,如语境学习和思维链。
  • 随着人机对齐研究的进展,LLMs开始扮演通用助理的角色,以遵循人类的意图,完成类型广泛的语言任务。
Multimodal Foundation Models: From Specialists to General-Purpose Assistants_第1张图片
图1. 语言与视觉/多模态基础模型的发展轨迹

视觉语言预训练( vision-language pre-training,VLP)已成为主流的视觉学习范式,其目标是学习通用的可迁移的视觉和视觉语言表征,或者生成高度可信的图像。它与语言领域的BERT/GPT-2一样,可以被认为是初代的多模态基础模型。

多模态基础模型的转变遵循着类似语言模型的趋势:从针对特定目的的预训练模型,到统一模型和通用助理。

总体而言,构建通用智能体一直是AI的长期目标。因此,构建通用视觉助理变得越来越重要。可以预见的通用视觉助理应该具有遵循用户上传图像、点击画面、草图或遮盖等指令的能力。

本文对现代多模态基础模型进行了全面和及时的调查,不仅涵盖了① 视觉理解 和② 视觉生成 的成熟模型,还总结了过去6个月里LLMs启发的新兴主题,包括③ 统一视觉模型、与多模态LLMs的④ 训练 和⑤ 链接(多模态代理)。

问题定义

什么是多模态基础模型?

随着基于广泛数据训练的模型(如BERT、GPT系列、CLIP等)的兴起,其可以适应广泛的下游任务。他们被称为基础模型,因为它们具有关键的中心性但不完整,且随着规模的扩大变得强大且能够获得新兴能力。

本文重点关注具有处理视觉-语言模态能力的模型,且根据多模态基础模型的功能性和一般性对其进行分类:

  • 特定目的预训练模型

    • 视觉理解模型:根据用于训练模型的监督信号类型,本文将方法分为三类:

      • 标签监督

      • 语言监督

      • 仅图像的自监督

    • 视觉生成模型:分为以下两种:

      • 基于文本的视觉生成:该研究领域的重点是在开放式文字描述的条件下生成可靠的视觉内容,包括图像、视频等。
      • 人类对齐的视觉生成器:改进预训练的视觉生成器,以更好地跟随人类意图,包括保证更好地遵守文本提示,支持灵活的基于文本的编辑等。
  • 通用助理:通用人工智能体是发展的趋势,现有研究主要集中在三个方面:

    • 用于理解和生成的统一视觉模型:针对各种下游计算机视觉语言任务,可以采用统一的模型架构。
    • 使用LLMs进行训练:通过将LLMs的能力扩展到多模态,并对模型进行端到端的训练。
    • 使用LLMs进行链接:将LLMs与各种多模态基础模型相结合。
Multimodal Foundation Models: From Specialists to General-Purpose Assistants_第2张图片
图2. 基础多模态模型分类.

方法

总体框架

Multimodal Foundation Models: From Specialists to General-Purpose Assistants_第3张图片
图3. 本文结构框架

视觉理解

学习通用的视觉表示对于构建视觉基础模型至关重要,对于所有类型的计算机视觉下游任务起关键作用,从图像级(分类、检索和描述)、区域级(检测)到像素级(分割)任务。根据用于训练模型的监督信号类型,可以分为 ① 标签监督、② 语言监督与 ③ 图像自监督三类。此外,本章最后也会谈到 ④ 多模态融合(Multimodal Fusion)。

  • 标签监督:如ImageNet这样的有标签图像数据集已经被广泛用于标签监督学习。
  • 语言监督:语言是更丰富的监督形式。如CLIP使用从Web中挖掘的数十亿(图像, 文本)的对比损失进行预训练。这些模型实现了零样本图像分类,使传统的CV模型能够执行开放词汇的CV任务。
  • 仅图像的自监督:该工作从图像本身挖掘的监督信号中学习图像表示,包括对比学习、非对比学习与掩码图像建模。
Multimodal Foundation Models: From Specialists to General-Purpose Assistants_第4张图片
图4. 学习图像表示的不同方法
有监督预训练

在ImageNet等大规模人工标注数据集上进行有监督预训练,已经成为广泛采用的获取可迁移视觉表征的方法。它旨在将一幅图像映射为一个离散的标签,该标签与一个视觉概念相关联。这种方法极大加快了各种视觉骨干的设计进度,如ResNet、ViT等。它还为各种的计算机视觉任务提供了骨干,从图像分类、目标检测/分割、视觉问答、图像描述、到视频行为识别。然而,在预训练数据集中,由于人工标注的代价昂贵,学习到的表示的有效性往往受限于监督的规模和多样性。

  • 大规模数据集
Multimodal Foundation Models: From Specialists to General-Purpose Assistants_第5张图片
图5. 大规模图像数据集
  • 模型训练
    • 损失函数:有很多损失函数可以用来提升嵌入性质(例如可分性) 。例如,large margin loss用于MOFI训练。
    • 标签预测优化:此外,如果数据集具有超过百万的大量标签,预测每个批次中的所有标签将变得计算代价高昂。在这种情况下,每个批次通常使用固定数量的标签,类似于采样的softmax。
对比语言-图像预训练

语言是比经典的闭集图像标签更丰富的监督形式。从网络爬取的图像的监督标签通常含有噪声,而对比学习可以直接使用开放文本学习可迁移的图像表示,这就是对比语言-图像预训练(CLIP)的关键。

CLIP联合训练一个图像编码器和一个文本编码器来预测一批(图像, 文本)训练样本的正确配对。在测试时,学习的文本编码器通过嵌入目标数据集类别的名称或描述,生成一个零样本线性分类器。如图6所示。

Multimodal Foundation Models: From Specialists to General-Purpose Assistants_第6张图片
图6. CLIP
仅图像的自监督
对比学习

对比学习的核心思想是促进正样本对,排斥负样本对。除了在CLIP中使用外,对比学习也是自监督图像表示学习中的一个热门概念。所有基于图像的对比学习方法具有大致相同的框架,具体如下:

  • 给定一幅图像,应用两个独立的数据增强;
  • 将这两个图像输入到的深度学习模型中,为每个图像创建向量表示,目标是训练模型输出相似图像的相似表示;
  • 通过最小化对比损失函数来最大化两个向量表示的相似性。
非对比学习

最近的自监督学习方法不依赖于负样本。负样本由非对称架构、维度去相关以及聚类替换。

在SimSiam中,一幅图像经过两个独立数据增强后的视图由一个相同的编码器网络处理。随后,在一个视图上使用预测MLP,而在另一个视图上停止梯度传播。该模型的目标是最大化两个视图之间的相似度。

另一种方法DINO包括将输入图像的两个不同的随机变换送入学生和教师网络。这两个网络具有相同的体系结构,但具有不同的参数。教师网络的输出以一个批次中的均值为中心。每个网络输出一个特征向量,用一个应用于特征维度的softmax进行归一化。使用交叉熵损失来量化这些特征之间的相似性。此外,在教师网络中停止梯度传播,以确保梯度仅通过学生网络传播。DINO使用学生参数的指数移动平均值来更新教师参数。

Multimodal Foundation Models: From Specialists to General-Purpose Assistants_第7张图片
图7. SimCLR(对比学习)、SimSiam与DINO(非对比学习)概述
掩码图像建模

掩码语言建模是一个强大的预训练任务,其彻底改变了NLP的研究。为了模仿BERT预训练在NLP领域取得的成功,BEiT提出使用掩码图像建模(Masked Image Modeling,MIM)来预训练图像TransFormer。

两个关键概念:

  • 掩码再预测:MIM的核心思想是将掩码后的图像输入模型,然后预测被掩盖内容的目标。这个训练过程可以理解为图像表征器(它担任教师的角色)和图像编码器(作为学生角色)之间的知识蒸馏,而学生只看到图像的一部分。
  • 图像Tokenizer:为了执行掩码token预测,需要一个图像tokenizer将图像tokenize为离散的视觉tokens,这样就能像处理一个语言token集一样处理这些视觉tokens。(类似ViT的输入)

而MIM的输出目标可以为原始像素值,也可以为不同的特征,如图8所示。

Multimodal Foundation Models: From Specialists to General-Purpose Assistants_第8张图片
图8. 掩码自编码器(MAE)与MaskFeat图例
多模态融合

对于CLIP等双编码器,图像和文本是分开编码的,模态交互只通过图像和文本特征向量的点积来处理。这对于零样本图像分类和图像文本检索是非常有效的。然而,由于缺乏深度的多模态融合,CLIP单独在图像描述和视觉问答任务上表现不佳。而进行多模态融合,需要对融合编码器进行预训练,通常使用额外的转换层来建模图像和文本表示之间的深层交互。

  • 基于目标检测器的模型

    早期的方法大多使用预训练的目标检测器(Object Detector,OD)来提取视觉特征。其中,ViLBERT等方法使用共同注意力进行多模态融合,而VisualBERT等方法将图像特征作为文本输入的软提示送入多模态转换器。

  • 端到端模型
    现在,端到端的预训练方法成为主流。一些早期的方法使用CNN提取图像特征,或直接将图像块特征和文本标记嵌入输入到多模态转换器中。由于ViT的普及,现在大多数方法直接使用ViT作为图像编码器和Swin TransFormer。

UNITER和CoCa分别作为经典模型和现代模型的两个例子,对多模态融合进行预训练,其示意图如图9所示。

UNITER通过现成的物体检测器提取图像特征,并将图像特征作为文本输入的软提示送入多模态转换器。对于CoCa,使用图像编码器和文本编码器,顶部堆叠多模态TransFormer。

Multimodal Foundation Models: From Specialists to General-Purpose Assistants_第9张图片
图9. UNITER与CoCa图例

综上,以下是本章涉及的主题与其代表工作:

Multimodal Foundation Models: From Specialists to General-Purpose Assistants_第10张图片
图10. 本章涉及主题及代表工作

视觉生成

视觉生成旨在生成高保真的视觉内容,包括图像、视频、神经辐射场、三维点云等。该主题是最近流行的人工智能生成内容(AIGC)的核心,这种能力有助于合成训练数据以帮助理解模型,从而实现多模态内容理解和生成的闭环。为了利用视觉生成,生成严格符合人类意图的视觉数据是至关重要的。这些意图作为输入条件被输入到生成模型中,例如类标签、文本、边界框、布局掩码等。鉴于开放式文字描述所提供的灵活性,文本条件(包括文本到图像/视频/3D )已经成为有条件视觉生成中的一个关键主题

在这一章中,本文描述了如何在视觉生成中与人类意图保持一致,重点是图像生成。首先概述① 文本到图像( T2I )生成现状,强调了其与人类意图对齐的局限性。其次回顾四个旨在增强T2I生成中一致性的目标领域的文献,即② 空间可控T2I生成、③ 基于文本的图像编辑、④ 文本提示跟随和T2I生成中的⑤ 视觉概念定制

T2I生成现状

T2I生成背景下的AI对齐研究是致力于使图像生成模型可以轻松地遵循人类意图来合成所需的生成视觉内容。

Multimodal Foundation Models: From Specialists to General-Purpose Assistants_第11张图片
图11. T2I模型发展

Stable Diffusion(SD)是使用最广泛的开源T2I模型之一,其主要分为图像VAE(Variational autoencoder,变分自编码器)、去噪U-Net条件编码器3部分,分别如图12的左中右所示。

  • VAE:该模块包含一个成对的编码器E和解码器D,训练将RGB图像x编码成一个潜在的随机变量z,然后解码该潜在变量以最佳地重建图像。
  • 去噪U-Net:是扩散图像生成过程的核心模块。该模块被训练来预测噪声,并随每个去噪时间步t在潜在空间中减去该噪声,这样就可以逐步将初始的随机噪声演变成有意义的图像潜在表示。
  • 文本编码器:SD是一种条件图像生成模型,其中输入文本条件使用条件编码器 τ \tau τ 进行编码。
Multimodal Foundation Models: From Specialists to General-Purpose Assistants_第12张图片
图12. 潜在扩散模型架构
空间可控T2I生成

T2I生成采用开放式文本,供用户描述自己想要的图像。然而,当需要指定空间信息时,单独的文本描述是无效的。空间可控的T2I图像生成研究探索扩展T2I模型,引入额外的空间输入条件来指导图像生成过程。

  • 区域控制T2I生成

    一研究探索了使用任意区域上开放式文字描述作为额外输入条件,来增强了T2I模型中的全局图像描述。这种新的输入条件要求T2I模型能够理解空间输入,并将其与接地文本相关联。ReCo是一种区域控制T2I模型,如图13所示。

    Multimodal Foundation Models: From Specialists to General-Purpose Assistants_第13张图片
    图13. ReCo模型架构
  • 密集条件T2I生成

    除了空间坐标外,分割掩码、边缘图和深度图等2D的密集空间阵列都可以作为T2I模型的输入条件,如图14所示。

    密集空间阵列:即空间阵列中包含有整幅图像较完整的空间语义信息。与之相对的概念是稀疏空间阵列,其部分空间语义信息缺失。

    图14. 密集控件实例和对应的生成图像
基于文本的图像编辑

T2I编辑结合输入文字描述,从给定的图像中合成新的图像。与完全从零开始生成图像不同,T2I编辑其目的是保留大部分原有的视觉内容,只修改特定的组件。

  • 扩散过程操作

    扩散图像生成中的多步去噪过程天然地支持了一定程度的图像编辑。先对输入图像添加噪声进行编辑,然后对样本进行去噪,可以产生有意义的编辑。

    图15. 3种扩散过程中的T2I编辑
  • 文本指令编辑

    用户使用语言直接指定编辑指令更有效率,如图16中的"用玫瑰换向日葵"。T2I模型可以通过在SD的卷积中加入更多的输入通道来接受额外的图像输入。

    图16. 文本指令T2I编辑
文本提示跟随

T2I模型可能无法很好地跟随文本提示,特别是当图像描述变得复杂时。例如,某些名词短语可能会被省略,某些属性可能应用于错误的对象,生成的图像可能有错误的对象数量、关系、样式等。相关文献大致可以分为两大类:( 1 ) 推理时操作 和 ( 2 ) 对齐微调

  • 推理时操作

    在推理时解析文本查询,并显式地执行T2I模型以更密切地关注每个名词短语,可能会生成更好地跟随文本提示的图像。

    StructureDiffusion使用语法分析树来提取名词短语和文本提示的语言结构,然后强制模型"查看"所有提取的名词短语(通过修改交叉注意力机制实现)。

    推理时操作:没有进行额外的训练与更新模型权重参数,仅在推理过程中进行操作

  • 对齐微调

    可以改进一个预先训练好的T2I模型来更好地跟踪文本提示。一种方法是通过强化学习,使用图像-文本相似度作为奖励,而不是在训练中使用的图像生成目标。这使得模型可以朝着更好的图像-文本对齐的方向进行优化。

    DDPO(denoising diffusion policy optimization)使用视觉语言模型将生成的图像转换为文字描述。将生成的文字描述与输入的文本提示进行比较,通过使用BERTScore得出相似度奖励。然后利用相似度奖励对预训练的T2I模型进行微调,使得模型能够更好地跟随文本提示。

    图17. 采用基于视觉语言模型的奖赏函数进行图文对齐微调的DDPO
视觉概念定制

语言不能全面地描述视觉概念的所有细节以进行重构。而通过图像输入直接扩展T2I模型来理解视觉概念是一个更好的选择。

  • 单概念定制

    如图18的左侧所示,Textual Inversion模型处理一只狗的四幅不同输入图像,随后学习一个新token的嵌入,记为**[ V ]。这个[ V ]** token可以作为一个文本token来表示这个特定的狗。**[ V ]**标记可以与其他文本描述结合,在各种语境中呈现特定的狗,如游泳、装桶、理发等。

    图18. Textual Inversion的输入与视觉概念定制任务可视化
  • 多概念定制

    最近的研究探讨了将多个视觉概念整合到单个文本到图像模型中的可能性,表示为**[ V1 ][ V2 ]**等。Custom Diffusion利用从多组概念图像中学习到的模型权重中挑选的子集,特别是在交叉注意力层中从文本到潜在特征的关键和值映射,进行概念定制。

综上,以下是本章涉及的主题与其代表工作:

Multimodal Foundation Models: From Specialists to General-Purpose Assistants_第14张图片
图19. 本章涉及的主题与其代表工作

统一视觉模型

针对各种类型的下游计算机视觉语言任务,可以采用统一的模型架构。本章的讨论包括以下方面:① 统一视觉模型所面临的挑战, ②将闭集模型转换为开集模型,③ 统一不同粒度的视觉任务,④ 建立及时交互界面

挑战

不同类型的计算机视觉任务千差万别。

  • 输入格式

    从静态图像到连续视频,从图像去雾等纯视觉输入到视觉和语言等多模态输入。

  • 任务粒度

    图像级任务,如图像分类和字幕描述;区域级任务,如目标检测;像素级任务,如图像分割和超分辨率等。

  • 输出格式

    边缘、方框、面具等空间信息,类标签、多标签标签等语义信息,或者细节描述等。

  • 数据格式

    数据标签具有不同的粒度和语义丰富度,从整幅图像、区域(方框)到像素(掩码)标注。其次,收集图像数据的成本要比文本数据高得多。

将闭集模型转换为开集模型

传统的图像分类或检测模型从一个预定义闭集(训练集标签)中预测出一个标签或检测出目标。然而,当闭集标签不足时,模型很难迁移到其他任务中去。例如,很难将使用COCO集训练的目标检测器应用于军用舰艇的检测。而CLIP通过引入语言-图像对比预训练方法来训练开集模型,解决了闭集模型的局限性。

继CLIP后,许多开集视觉模型被开发出来,可以按照以下三个维度进行分类:模型初始化、设计和训练。

闭集(closed-set)与开集(open-set):在闭集设置中,模型的任务是识别一组在训练和测试阶段都保持不变的类别。在更现实的开放集设置中,模型不仅必须能够区分训练类,而且还必须指示图像是否来自它尚未遇到的类。

  • 模型初始化

    一种方式是直接使用预训练的CLIP进行初始化。另一种方式是使用CLIP作为一般初始化方法的增强,例如通过知识蒸馏,利用对齐的CLIP特征对模型进行扩充。还有的方式使用有监督的预训练模型或从头开始学习视觉-语义特征空间。

  • 模型设计

    开集模型可以是多阶段的,也可以是端到端的。如两阶段模型将定位和识别解耦,训练性能较好的定位网络,使用预训练的CLIP进行识别。端到端模型如GLIP将目标检测定义为文本背景,并在带有检测和背景标签的图像-文本对上进行端到端的训练。

  • 模型训练

    通过将标签监督转换为语言监督,许多工作直接利用已有的监督标注(如COCO数据集)来训练开集模型。

从任务特定模型到通用模型

跨不同粒度或领域的视觉任务之间很难进行协同,主要有任务类型碎片化(跨时间、空间、模态轴)和不同粒度任务的标注数据集规模不同两个难点。

尽管存在上述挑战,在NLP领域已经建立起了统一的通用模型的背景下,得益于TransFormer的通用性,这些模型可以借鉴并应用于各种视觉和视觉语言任务。目前已有的尝试可以归纳为两大类:

  • I/O统一

    最近的一些工作将不同类型的视觉任务重构为一个序列到序列的问题。他们通常使用一个tokenizer将不同任务中的不同模态的原始I/O tokenize为一个一致的序列(视觉或文本)token串,然后开发一个统一的序列到序列模型。

  • 功能统一

    功能统一的模型通常不需要任务特定或模式特定的tokenizer,但需要复杂的模型设计以适应各种任务。

上述两类统一方法的区别在于,I/O统一利用一个解码器来解码同构的token序列,然后由特定任务的解码器来解码。相比之下,功能统一预测异构的输出,然后使用不同的路由器为各种任务产生最终的输出。

Multimodal Foundation Models: From Specialists to General-Purpose Assistants_第15张图片
图20. 两类统一方法的区别
从静态模型到可提示模型

ChatGPT等大型语言模型的成功展示了现代人工智能模型在与人类交互中的重要性。与人类交互的能力需要一个用户友好的界面,该界面能够接收尽可能多类型的人类输入,并生成人类易于理解的响应。最近,一些工作提出了增强静态视觉模型的能力以支持:① 多模态提示,② 语境提示

  • 多模态提示(Multi-modal Prompting)

    视觉与语言有着本质的区别。为了人机间能够准确交互,模型不仅需要语言提示,还需要其他类型的提示来补充缺失的信息或解决语言中的歧义。

    • 空间提示:通过输入位置信息来调节视觉模型。

    • 视觉提示:对于一个难以描述的对象,展示一个例子将更直白且有效。

      图21. SEEM可以将不同类型的提示作为各种图像分割任务的输入
  • 语境提示(In-context Prompting)

    语境学习能力已经在许多LLMs中被观察到,但针对视觉模型的语境学习能力的研究仍然较少。

    Hummingbird模型利用目标和源图像之间的注意力来聚合信息,取多个输入提示图像(第一行)和对应的语义标签图(第二行),如图22所示。给定查询图像,首先在查询点的提示图像中找到最近邻的特征位置,然后将相同的匹配投影到语义标签图中,从而聚合目标查询的标签。该策略类似于早期基于K近邻建立分类模型的工作。

    Multimodal Foundation Models: From Specialists to General-Purpose Assistants_第16张图片
    图22. Hummingbird模型,通过最近邻检索进行视觉场景理解

大语言模型链接工具

LLMs能够迅速适应新的场景,并具有语境学习的能力。学界正在探索从用于解决特定问题的独立模型,转变为将多个工具或专家与LLMs协同链接以解决复杂、开放的问题。

在本章中,本文介绍将不同的多模态专家模型与LLMs联系起来以解决复杂问题的技术,称为多模态代理(multimodal agents)。本章将首先概述了这种建模范式的① 演变;其次对多模态代理进行了 ② 总体概述;最后以一个典型的多模态代理MM - REACT为例,全面回顾了 ③ 如何构建多模态Agent,以及它如何扩展到集成最新和最强的LLM和潜在的数百万种工具。

Multimodal Foundation Models: From Specialists to General-Purpose Assistants_第17张图片
图23. 建模范式的演变
多模态代理

一个典型的多模态Agent框架的概述见图24。首先,用户直接与工具分配器进行交互,工具分配器作为代理的大脑发挥作用(通常是一个LLM)。接下来,LLM将用户请求分解成较小的、可管理的子问题,并规划一个分步的解决方案。随后,LLM调用所需的外部工具。最后,从工具中收集执行结果作为LLM的输入,生成对用户的响应。

Multimodal Foundation Models: From Specialists to General-Purpose Assistants_第18张图片
图24. 多模态代理框架概述
样例研究:MM-REACT

MM-ReAct将大量多模态工具与ChatGPT相结合,用于多模态推理和行动。通过使用各种多模态工具对单一语言的ChatGPT进行扩展,MM-REACT支持多模态的输入和输出,包括文本、图像和视频,如图25所示。

由于ChatGPT(GPT3.5)只接受语言输入,使用图片路径作为图像的输入。ChatGPT将图片路径视为黑盒的占位符,然后在规划阶段从不同的工具中寻求帮助。

Multimodal Foundation Models: From Specialists to General-Purpose Assistants_第19张图片
图25. MM-ReAct系统设计

相关知识链接

论文原文

Multimodal Foundation Models: From Specialists to General-Purpose Assistants

总结

  • 特定目标预训练模型
    • 视觉理解
      • 有监督预训练
      • 对比语言-图像预训练
      • 仅图像的自监督
        • 对比学习
        • 非对比学习
        • 掩码图像建模
      • 多模态融合
    • 视觉生成
      • 空间可控T2I生成
      • 基于文本的图像编辑
      • 文本跟随提示
      • 视觉概念定制
  • 统一助理
    • 统一视觉模型
      • 将闭集模型转换为开集模型
      • 从任务特定模型到通用模型
      • 从静态模型到可提示模型
    • 大语言模型链接工具
      • 多模态代理
      • MM-REACT样例研究

[启发]

  • 本文总结了多模态大模型领域现有的四大研究方向:视觉理解、视觉生成、统一视觉模型和多模态代理
  • 多模态代理:交互→规划→执行的一般框架也可以用于将大模型与其他专家模型链接的应用场景中
  • 当代理LLM只能接受自然语言时,可以将多模态文件路径作为黑盒占位符输入LLM,在后续阶段使用不同工具对该多模态数据进行处理

BibTex

@misc{li2023multimodal,
      title={Multimodal Foundation Models: From Specialists to General-Purpose Assistants}, 
      author={Chunyuan Li and Zhe Gan and Zhengyuan Yang and Jianwei Yang and Linjie Li and Lijuan Wang and Jianfeng Gao},
      year={2023},
      eprint={2309.10020},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

你可能感兴趣的:(人工智能)