【AI论文】EmbRACE-3K: 复杂环境中的具身推理与行为研究

【AI论文】EmbRACE-3K: 复杂环境中的具身推理与行为研究_第1张图片

摘要:近期先进的视觉语言模型(Vision-Language Models,VLMs)在被动、离线的图像和视频理解任务中展现出了卓越的性能。然而,在具身场景中,这些模型的有效性仍较为有限。具身场景要求在线交互和主动的场景理解,在此类场景中,智能体以第一人称视角感知环境,且每一次动作都会动态地影响后续的观察结果。即便是像GPT-4o、Claude 3.5 Sonnet和Gemini 2.5 Pro这样的先进模型,在开放环境交互中也面临困难,在空间推理和长期规划方面存在明显局限。为填补这一空白,我们推出了EmRACE-3K数据集,该数据集包含3000多个由语言引导的任务,这些任务位于利用虚幻引擎(Unreal Engine)和UnrealCV-Zoo框架构建的多样化、逼真的环境中。这些任务涵盖了广泛的具身挑战,包括导航、物体操作和多阶段目标执行。每个任务都以多步骤轨迹的形式展开,将第一人称视觉观察与高级指令、具体动作以及表达智能体每一步意图的自然语言推理相结合。利用EmRACE-3K数据集,我们建立了一个基准,用于从三个关键维度评估视觉语言模型的具身推理能力:探索能力、动态空间语义推理能力和多阶段目标执行能力。在零样本设置下,所有模型的成功率均低于20%,这凸显了我们提出的基准所构成的挑战,以及视觉语言模型在交互式环境中的当前局限。为证明EmRACE-3K数据集的实用性,我们进一步使用监督学习结合强化学习对Qwen2.5-VL-7B模型进行了微调。这种方法在所有三个挑战类别中都取得了显著提升,凸显了该数据集在促进具身推理能力发展方面的有效性。Huggingface链接:Paper page,论文链接:2507.10548

研究总结:EmbRACE-3K——复杂环境中的具身推理与行为

一、研究背景和目的

研究背景

近年来,视觉语言模型(Vision-Language Models, VLMs)在图像和视频的被动、离线理解任务中取得了显著进展。这些模型通过整合视觉和语言信息,在图像标注、视频摘要、视觉问答等任务中表现出色。然而,当这些模型被应用于需要在线交互和主动场景理解的具身场景时,其有效性却大打折扣。具身场景要求智能体以第一人称视角感知环境,并通过每一次动作动态地影响后续的观察结果。这种动态、闭环的感知-动作循环对模型的推理和规划能力提出了更高要求。

尽管GPT-4o、Claude 3.5 Sonnet和Gemini 2.5 Pro等先进模型在静态视觉和语言信息对齐方面表现出色,但在开放环境交互中,它们在空间推理和长期规划方面却存在明显局限。例如,这些模型往往难以根据即时视觉线索进行长远规划,容易在动态变化的环境中迷失方向,且在多阶段目标执行任务中表现不佳。这些局限凸显了现有VLMs在具身推理方面的不足,也指出了研发能够在复杂环境中进行有效具身推理的模型的重要性。

研究目的

本研究旨在填补现有VLMs在具身推理方面的研究空白,通过构建一个大规模、高质量的具身推理与行为数据集——EmbRACE-3K,推动该领域的研究发展。具体目标包括:

  1. 提供丰富多样的训练数据:EmbRACE-3K数据集将包含3000多个由语言引导的任务,这些任务位于利用虚幻引擎和UnrealCV-Zoo框架构建的多样化、逼真的环境中。任务涵盖导航、物体操作和多阶段目标执行等广泛具身挑战,为模型提供丰富的多模态交互数据。
  2. 支持多模态学习任务:数据集将提供详细的文本标注、动作标注、环境状态标注等多模态信息,支持具身推理、行为生成、多模态对话建模等多种学习任务。
  3. 建立评估基准:利用EmbRACE-3K数据集,建立一个基准,用于从探索能力、动态空间语义推理能力和多阶段目标执行能力三个关键维度评估VLMs的具身推理能力。
  4. 推动模型改进:通过微调实验,展示EmbRACE-3K数据集在提升VLMs具身推理能力方面的有效性,为未来研究提供参考和借鉴。

二、研究方法

数据集构建

EmbRACE-3K数据集的构建分为四个阶段:环境采样与姿态选择、任务指令生成、人类示范与轨迹捕捉、以及逐步推理标注。

  1. 环境采样与姿态选择:在100个逼真的虚拟环境中选择24个多样化的地图,利用自动化脚本和手动检查相结合的方式采样智能体的多样化姿态,并记录每个姿态的6自由度坐标和第一人称视角的RGB图像。
  2. 任务指令生成:为每个选定的智能体姿态,检索半径1000米内的对象级元数据,并将其与第一人称视角的RGB图像一起提供给Gemini 2.5 Pro模型,以生成自然语言任务指令。指令类型包括基本型、探索型、动态空间语义型、多阶段型和交互型五种。
  3. 人类示范与轨迹捕捉:由人类玩家执行每个生成的任务指令,并记录所有第一人称视角的帧、执行的动作和精确的姿态轨迹。
  4. 逐步推理标注:为每个轨迹步骤标注自然语言推理,解释所选动作的原因和意图,提供决策层面的监督。

评估基准建立

利用EmbRACE-3K数据集,建立了一个评估基准,用于从三个关键维度评估VLMs的具身推理能力:

  1. 探索能力:评估模型在未知环境中的主动搜索和信息获取能力。
  2. 动态空间语义推理能力:评估模型在动态变化环境中对空间关系的理解和推理能力。
  3. 多阶段目标执行能力:评估模型在执行多阶段复杂任务时的规划和执行能力。

模型微调实验

选取Qwen2.5-VL-7B作为基础模型,通过监督微调(SFT)和强化学习(RL)相结合的方式进行微调,以评估EmbRACE-3K数据集在提升模型具身推理能力方面的有效性。

三、研究结果

评估基准性能

在零样本设置下,GPT-4o、Gemini 2.5 Pro和Qwen2.5-VL-7B等先进模型在所有三个评估维度上的成功率均低于20%。这凸显了EmbRACE-3K基准的挑战性,以及现有VLMs在交互式环境中的局限。

微调实验性能

通过SFT和RL微调后的Qwen2.5-VL-7B模型在所有三个挑战类别上均取得了显著提升。具体来说,微调后的模型在探索任务上的成功率从零样本设置下的不足20%提升至30%以上,在动态空间语义推理任务上的成功率提升至40%以上,在多阶段目标执行任务上的成功率提升至25%以上。此外,微调后的模型在目标距离误差(GDE)和步骤效率(SSPL)等指标上也表现出显著改进。

推理标注的有效性

比较仅使用SFT微调和去除推理标注的SFT微调模型发现,加入推理标注的模型在动态空间语义推理和多阶段目标执行任务上的表现更优。这表明逐步推理标注有助于模型保持空间定位和任务上下文,提高决策质量。

四、研究局限

尽管本研究在EmbRACE-3K数据集的构建和模型微调方面取得了显著进展,但仍存在一些局限:

  1. 数据集的多样性:尽管EmbRACE-3K数据集包含了多样化的环境和任务类型,但与真实世界相比,其多样性仍有限。未来需要进一步扩展数据集,涵盖更多复杂和多变的环境。
  2. 模型的泛化能力:尽管微调后的模型在域内任务上表现出色,但在域外任务上的性能下降显著。这表明模型的泛化能力仍有待提高,未来需要探索更有效的迁移学习和领域适应方法。
  3. 评估指标的完善:目前的评估指标主要关注任务成功率和步骤效率等方面,未来需要开发更全面、细致的评估指标,以更准确地评估模型的具身推理能力。

五、未来研究方向

针对本研究的局限和现有VLMs在具身推理方面的不足,未来研究可以从以下几个方面展开:

  1. 扩展数据集的多样性和规模:进一步扩展EmbRACE-3K数据集,涵盖更多复杂和多变的环境类型、任务类型和交互模态。同时,探索自动化和半自动化的数据收集方法,以降低数据收集成本并提高数据质量。
  2. 提升模型的泛化能力和鲁棒性:研究更有效的迁移学习和领域适应方法,以提高模型在未知环境中的泛化能力和鲁棒性。同时,探索模型对噪声和干扰的抵抗能力,以提高其在真实世界中的适用性。
  3. 开发更全面、细致的评估指标:针对具身推理任务的特点,开发更全面、细致的评估指标。例如,可以引入对模型空间推理能力、长期规划能力和多模态交互能力的评估指标,以更准确地评估模型的性能。
  4. 探索多模态融合和交互方法:研究更有效的多模态融合和交互方法,以提高模型对视觉、语言、动作等多种模态信息的整合和利用能力。例如,可以探索基于注意力机制的多模态融合方法,或者引入对话管理和上下文理解技术,以提高模型在复杂交互场景中的表现。
  5. 推动实际应用和落地:将EmbRACE-3K数据集和微调后的模型应用于实际场景中,如智能家居、机器人导航、虚拟现实等领域。通过实际应用和反馈,不断优化和改进模型性能,推动具身智能技术的发展和落地。

你可能感兴趣的:(【AI论文】EmbRACE-3K: 复杂环境中的具身推理与行为研究)