基于大模型的具身智能系统综述

基于大模型的具身智能系统综述

来源:《自动化学报》

作者:王文晟,谭宁,黄凯,张雨浓,郑伟诗,孙富春

摘要:

得益于近期具有世界知识的大规模预训练模型的迅速发展,基于大模型的具身智能在各类任务中取得了良好的效果,展现出强大的泛化能力与在各领域内广阔的应用前景。

鉴于此,对基于大模型的具身智能的工作进行了综述,首先,介绍大模型在具身智能系统中起到的感知与理解作用;其次,对大模型在具身智能中参与的需求级、任务级、规划级和动作级的控制进行了较为全面的总结;然后,对不同具身智能系统架构进行介绍,并总结了目前具身智能模型的数据来源,包括模拟器、模仿学习以及视频学习;最后,对基于大语言模型(Large language model, LLM)的具身智能系统面临的挑战与发展方向进行讨论与总结。


具身智能的概念最早可以上溯至1950年图灵在其著名论文“Computing machinery and intelligence”[1]中对未来机器发展方向的设想:一个方向是让机器学会抽象技能,如下棋;另一个方向则是为机器人提供足够好的传感器,使之可以像人类一样学习。前者的思想出现在后来发展的各类神经网络如多层感知机、卷积神经网络中,即离身智能;后者则逐渐发展出了具身智能的概念。

现在,具身智能一般指拥有物理实体,且可以与物理环境进行信息、能量交换的智能系统[2]。虽然在过去的几十年间,离身智能取得了令人瞩目的成就,但对于解决真实世界的问题来说,“具身”的实现仍然是必要的,与强调从经验中学习并泛化的离身智能方法相比,具身智能更强调与环境的交互,只有拥有物理身体才能与世界进行互动,更好地解决现实问题[3]。

当前,随着机器人技术和计算机科学的发展,具身智能受到更多的关注,逐渐从概念走向实际应用,而如何利用目前飞速发展的计算能力与人工智能(AI)技术提高具身智能的表现则成为学界与产业界的关注重点。最近的研究表明,通过扩大语言模型的规模,可以显著提高其在少样本学习任务上的表现,以GPT-3[4]为代表的大语言模型(LLM)在没有进行任何参数更新或微调的情况下,仅通过文本交互来指定任务和少样本示例就能很好地完成各类任务。在此之后,具有优秀泛化能力与丰富常识的基础模型在计算机视觉、自然语言处理等领域都展现出令人瞩目的效果。GPT-4[5]、LLaMA[6]、LLaMA2[7]、Gemini[8]、Gemini1.5[9]等大语言模型能与人类进行流畅的对话,进行推理任务,甚至进行诗歌和故事的创作;BLIP [10]、BLIP2[11]、GPT4-V[12]等视觉−语言大模型则能对图片进行图像分割[13]、目标检测[14]、视觉问答(VQA)[15];DINO[16]、CLIP[17]、SAM[18]等视觉基础模型则以低于前两者的模型量级提供跨越图像与文本鸿沟的能力,为进行实时的开放词汇的视觉检索提供了可能。这一系列的进展不仅展示了基础模型的强大潜力,也为其与具身智能的融合提供了新的视角和可能性。文献[19] 将上述在大规模数据集上进行训练并能适应广泛任务的模型统称为基础模型,意即可作为大量下游任务训练基础的模型(目前一般认为基础模型即大模型,后文将不对二者作区分)。

由于涉及到物理环境,机器人深度学习模型往往面临数据获取难度大、训练的模型泛化性差的困境,传统机器人往往仅能处理单一任务,无法灵活面对复杂的真实环境。而基础模型用来自互联网的大量文本、图片数据进行预训练,往往包含各种主题与应用场景,能学习到丰富的表示与知识,具有解决各类任务的潜能,其作为具身智能的“大脑”能显著弥补机器人领域训练数据少且专门化的缺点,为系统提供强大的感知、理解、决策和行动的能力。此外,基础模型的零样本能力使得系统无需调整即能适应各种未见过的任务,基础模型训练数据的丰富模态也可以满足具身智能对各类传感器信息的处理需求。无论是视觉信息、听觉信息,还是其他类型的感知数据,基础模型都能够为具身智能提供全面和准确的理解。在实际应用中,这意味着具身智能能够更好地适应环境变化,理解各种操作对象,解决各种复杂问题。

大模型的强大理解能力也能为具身智能带来与人类无障碍沟通的能力,能更有效且准确地理解用户需求,而大模型的长对话能力也使其具有处理复杂任务的能力,并规划长期目标。这些特点都使得具身智能有别于传统的仅面向单一任务,或同质任务的传统机器人,使其具有更强的自主性与适应性。人形机器人的突出优势就是其通用性,而大模型带来的认知能力则是形成通用性的关键[20]。近期,各大机器人企业制造的人形机器人,如宇树机器人Unitree H1、特斯拉机器人Optimus,以及Figure AI的Figure 01均使用了基础模型进行赋能,展现出令人惊讶的理解、判断和行动能力。

随着大模型的发展,近年基于大模型的具身智能工作已经成为研究热点,各类试图将二者结合的工作层出不穷。尽管目前有一些以具身智能为主题的综述[21−23],但并未聚焦于大模型。目前也有综述研究大模型在机器人上的应用[24−28],但不同的是,本文的内容更倾向于从具身智能的角度介绍二者如何有机结合,并加入对模型规划层级的分类探讨。此外,由于该领域发展迅速,在上述论文发布后又涌现出了许多重要工作,本文将补充这些最新进展,为希望了解该领域的研究人员提供更多的参考 (工作总览见图1[25,29−100])。

基于大模型的具身智能系统综述_第1张图片

图1 基于大模型的具身智能工作概览

本文内容安排如下:

第1节对大模型如何帮助具身智能实现对环境的感知与理解进行介绍;

第2节分析大模型分别在需求级、任务级、规划级、动作级这四个控制层级上为具身智能提供的规划;

第3节对各类实现大模型结合具身智能的系统架构进行分类与介绍;

第4节从模拟器、模仿学习和视频学习等方面介绍具身智能训练的数据来源,探讨大模型如何为机器人训练带来丰富的数据;

最后在第5节对全文进行总结并提出研究方向。

图片

感知与理解

在与环境的交互中,具身智能通过摄像头、麦克风等传感器接受原始数据,并解析数据信息,形成对环境的认知。在处理此类信息时,大模型有着强大的优势,能有效处理整合多模态的输入数据,捕获各模态之间的关系,提取为统一的高维特征,形成对世界的理解。如对大量无标签的互联网文本和图像进行预训练的视觉模型,能将图像与文本编码到同样的向量空间中,这种对齐不仅有利于对环境的感知,也有利于对用户自然语言指令的理解,利于完成复杂的任务。本节主要讨论各类将大模型用于具身智能感知与理解的方法,讨论范围是文本、图像和音频等信息,其中感知的信息来源于环境与人类用户。

1.1 多模态模型理解

多模态模型,尤其是多模态大模型(Large multimodal model,LMM)具有理解图像、场景文本、图表、文档,以及多语言、多模态理解的强大能力[29],可以直接用于具身智能对环境的理解,并通过提示词使之输出结构化内容如控制代码、任务分解等指令。

Wang等[25]探索了使用GPT-4V赋能的具身智能任务规划的可能性,作者提出一个基于GPT-4V的框架,用于通过结合自然语言指令和机器人视觉感知来增强具身任务规划。框架使用视频数据的初始帧和对应的文本指令作为输入,根据输入的指令和环境图像,生成一系列动作计划。研究人员在多个公开的机器人数据集上进行实验,结果表明,GPT-4V能够有效地利用自然语言指令和视觉感知生成详细的动作计划,且这些计划与真实世界的演示视频具有高度的一致性,展现出GPT-4V在具身智能中的潜力。

ViLA[30]同样引入了GPT-4V,通过将视觉信息直接融入推理和规划过程中来生成一系列可执行步骤。此外,ViLA能够自然地整合视觉反馈,使得机器人能够在动态环境中进行鲁棒的闭环规划:机器人执行第一步行动,并观察结果,执行行动后,ViLA会将新的视觉观察作为反馈,与之前的视觉观察和已执行的行动步骤一起输入到GPT-4V中。GPT-4V将根据这些信息更新其对环境的理解,并调整后续的行动步骤。例如,如果第一次行动没有完全达到预期的效果,ViLA可能会生成一个新的行动步骤来纠正或完成未完成的任务。通过这种以多模态大模型提供实时反馈的设计,ViLA能够自然地利用视觉反馈来实现闭环规划,使得机器人灵活地适应环境变化,并有效地执行长期任务。

MultiPLY[100]构造了基于LLaVA[101]的多模态、以对象为中心的具身大语言模型。研究人员预先定义了一系列的动作标记(如选择对象、导航、观察、触摸、敲击、拿起、放下、环顾四周)和状态标记(如编码获得的对象点云、冲击声、触觉信息和温度信息)与环境互动,其中动作标记指导具身代理在环境中执行特定动作,而状态标记则将代理的多模态状态观察反馈给大语言模型,以便生成后续的文本或动作标记,使得MultiPLY能够灵活地在抽象表示和详细的多模态信息之间切换,以适应不同的交互任务。

1.2 多模态环境建模

一些工作利用多模态大模型对环境进行建模,实现具身智能对空间信息的多模态理解。以CLIP为代表的多模态大模型由于包含跨模态的理解能力,可以用于编码摄像头输入的图片与包含用户任务自然语言,实现对环境的语义建模,以增强具身智能系统对环境的感知。需要强调的是,虽然本节与第1.1节都提到了多模态大模型,但第1.1节内容倾向于直接利用模型进行2D图片与文本理解;本节的工作则是提取多模态模型的知识对场景本身进行建模,并未直接使用模型的输出进行控制。

为了解决开放词汇移动操作(Open-vocabulary mobile manipulation,OVMM) (即机器人能够在未知环境中识别并操纵任意物体以完成日常任务)的挑战,HomeRobot[102]提出了HomeRobot OVMM基准测试,提供了高质量的多房间家庭环境,以支持在仿真和物理环境中进行广泛的基准测试。为了解决开放词汇移动问题,文献[103]利用CLIP等大规模预训练模型的能力,以弱监督的方式学习场景的3D语义表示,构建了一个从空间位置到语义特征向量的映射函数,能够处理分割、实例识别、空间语义搜索和视图定位等多种任务。

文献[86]提出了C2F-ARM算法,实现了由粗到细的Q-attention机制,它在给定体素化场景的情况下,学习应该“放大”场景的哪一部分。通过迭代应用这种“放大”行为,实现了对平移空间的几乎无损的离散化,使得在连续机器人领域中可以使用离散的强化学习方法,取代了训练时往往样本效率低且不稳定的连续控制强化学习方法。然而由粗到细的方案无法提供全局感受野,在理解场景方面存在缺陷。

针对这个问题,PerAct[87]使用基于Transformer体素编码器得到体素特征,而自然语言则通过CLIP的语言编码器转化为语言特征,随后体素特征一起输入至Perceiver Transformer,最后输出序列经过解码器处理,恢复到原始体素网格的维度,并用于预测离散化的行动动作。通过对场景进行三维体素化,并使用编码器进行场景、语言的特征提取,PerAct能够有效地对环境进行建模,获取全局感受野,并在多任务设置中执行精确的6-DoF(Degree of freedom)操控任务。体素化提供了对场景的强结构先验,而Perceiver Transformer则允许模型从少量演示中学习并泛化到新的环境和任务。同样是使用体素对环境进行建模,AVLMaps[91]将视觉定位特征、预训练的视觉−语言特征和音频−语言特征与3D重建相结合,将多模态大模型的开放词汇查询能力融合进环境的3D体素网格中,使得机器人系统能够基于多模态查询(如文本描述、图像或地标的音频片段)在地图中索引目标。

Act3D[92]则提出了一种基于Transformer的3D特征场模型,使用大规模预训练的2D特征提取器࿰

你可能感兴趣的:(深度学习,transformer,自然语言处理,人工智能)