机器人导航VLN,具身智能的半壁江山 视觉语言导航VLN都有哪些主流方法论?

视觉语言导航VLN都有哪些主流方法论?

具身智能之心 具身智能之心 2025年04月01日 08:03 上海

机器人导航,具身智能的半壁江山

具⾝智能是赋予人工智能与物理世界交互能⼒的学科,其中的能力可以拆解为抓取跟移动两项技能。机器⼈如何理解语⾔指令、感知周围环境,规划运动策略是具⾝智能研究中的核心命题。视觉语⾔导航(VLN)任务囊括了这三个方面,是其中的代表性方向。

VLN要求机器人在陌生的3D环境中,根据自然语言指令,利用视觉信息探索环境并导航至目标位置。不同于传统导航,VLN并非单纯依赖传感器或预设路径,而是通过多模态融合完成复杂任务。从2018年R2R基准被提出以来,VLN吸收了预训练大模型,自动驾驶,3D视觉等方向的前沿技术与思想,评测效果不断提升,多种评测基准不断 涌现。DeepMind, 密歇根的SLED实验室和中山大学的人机物实验室都在这个领域有深⼊研究。如今,VLN仍在指令与视觉信息推理,环境信息表征,实际环境部署上存在许多挑战,技术上有许多可待突破的空间。

机器人导航在工业中的应用主要集中于物流配送和服务机器人。过去仓储系统内的配送传统依赖路径规划和传感器,以亚马逊机器⼈和京东X无人车为代表的公司正在探索视觉语⾔导航技术,增强机器⼈对复杂环境的适应能力。在终端配送场景,社交导航和视觉语言导航是解决机器人应对动态环境和⼈类交互的核心技术,美团的无人配送车和美国Starship Technologies的园区配送车正在这个方向发力。此外,在医疗、酒店和餐厅等场景,服务机器⼈可以自主完成药品、文件和餐食的配送,提高资源流动效率并优化运营。中国的嘉楠科技、云迹科技、擎朗智能、达闼科技,以及美国的Aethon公司是这些领域的头部玩家。随着⼈形机器人的发展,将视觉语言导航技术部 署到⼈形机器人上成为重要趋势,包括宇树科技、智元机器人和特斯拉在内的公司正在尝试。未来,我们将看到搭载视觉语言导航系统的人形机器⼈在家庭服务、护理服务和物流配送等领域获得更广泛的应用。

视觉语言导航的前世今生

如何能让机器人正确理解人类语言并结合视觉,做出正确导航决策,是学术界长久的思考。如何让机器人在未知环境中完成任务并理解自然语言,是工业界长期以来的研究重点。VLN在这样的愿景下应运而生。

丰富的3D场景数据集给仿真中的VLN提供了试验田,最初的探索也专注于从场景数据集的标注中学习导航模式。随着视觉预训练大模型和大模型的模型的发展,研究者发现,借助这些经过海量数据训练的模型,机器人在应对新环境时的适应能力得到了大幅提升。图神经网络和3D视觉里神经辐射场等技术的引入也给如何建模历史观测信息,构建对场景的理解上提供了新的解决思路。更贴近现实场景的任务设定被不断提出,将VLN部署到现实应用的探索越来越多,VLN在学术和工业上都处于蓬勃发展的阶段。

已关

一般来说,VLN机器人系统主要由视觉语言编码器,环境历史信息表征,以及动作策略三个模块构成。

机器人从环境中获取语⾔指令和每⼀步的视觉观测,首先需要同时视觉语⾔编码器从中压缩出有效信息。采用怎样的编码器,视觉和语言的表征是否应该投影到⼀个共同的表征空间,是否应该首先对语言指令在指令级别的拆分然后在压缩是其中的关键问题。这其中,采用在大规模数据集上预训练的视觉语⾔模型,利用LLM做指令拆解和任务拆分是目前主流且前沿的范式。

VLN机器⼈需要逐步获得视觉观测,执行动作,获得新的观测,以此循环,这天然是⼀个序列决策的任务。那么如何累积历史上获得的信息,判断当前执行到任务的哪个阶段,为下⼀步的动作决策给出充分的信息,就变得非常关键。隐式端到端方法将过去的信息表示成序列模型中的隐变量,环境表征和策略网络融为⼀体,共同学习。而 显示端到端方法选择用诸如拓扑图,BEV语义地图,神经辐射场等模型对环境信息进⾏建模,进⽽在此基础学习策略网络。

策略网络的学习过去集中在如何从标注的数据集中提取模式,数据增⼴在其中起到了关键作用。如今,LLM拥有了强大的先验知识,如何从中蒸馏有效的规划信息,成为了近期研究的热点。

VLN更进⼀步,是物体导航任务(Object Navigation),该任务强调只给⼀个物品类别的信息,让机器人在场景中探索和识别目标物体。这样的设定减轻了现实应⽤中给出精细指令的负担,要求机器人有更强的目标识别和未知环境探索能力。

已关注

关注

重播 分享 赞

关闭

观看更多

更多

    退出全屏

    切换到竖屏全屏退出全屏

    具身智能之心已关注

    分享视频

    ,时长00:11

    0/0

    00:00/00:11

    切换到横屏模式

    继续播放

    进度条,百分之0

    播放

    00:00

    /

    00:11

    00:11

    全屏

    倍速播放中

    0.5倍 0.75倍 1.0倍 1.5倍 2.0倍

    超清 流畅

    您的浏览器不支持 video 标签

    继续观看

    视觉语言导航VLN都有哪些主流方法论?

    观看更多

    转载

    ,

    视觉语言导航VLN都有哪些主流方法论?

    具身智能之心已关注

    分享点赞在看

    已同步到看一看写下你的评论

    视频详情

    入门学习仍然困难?

    作为一个综合多个领域技术的方向,掌握VLN需要来自自然语言处理,计算机视觉,强化学习和图神经网络的知识。对想要提升综合实力的学员,VLN是一个一站式强化多领域知识的好机会。但是这样的学习路径往往非常非常痛苦。同时掌握好几个领域的知识已经足够困难,而各个领域的论文数量繁多,知识碎片化,入门者往往还没把各个领域的了解一圈,就已然放弃。如何从零散的论文中提炼框架,掌握领域发展趋势,是初学者常见的挑战。同时,学习 VLN 需要结合实际任务完成闭环,但缺乏系统的实战指导,很难从理论过渡到实践。

    为此,我们联合业内研究专家联合展开了国内首门面向VLN和目标导航的课程,通过本课程的梳理可以让你对一个领域如何被开启,如何兴盛,如何转型有一个全局认知,帮助你在日后的研究和工业实践中产生创新的思路,洞察未来的方向。课程特点如下:

    1)直击痛点,快速入门

    本课程基于Just-in-Time Learning理念,通过通俗易懂的语言和案例,帮助学员短时间内掌握核心技术栈。理解关键概念后,拓展特定领域知识将变得更加轻松。

    2)构建领域框架,提升研究能力

    帮助学员梳理 VLN 的研究发展脉络,掌握领域核心框架。学会将论文分类、提取创新点,形成自己的研究体系。

    3)理论结合实践,学以致用

    课程配有实战环节,完成从理论到实践的完整闭环。助力小白与转行人员,快速入门进阶。

    课程大纲一览:

    机器人导航VLN,具身智能的半壁江山 视觉语言导航VLN都有哪些主流方法论?_第1张图片

    这门课程将如何展开

    第一章:VLN 基础介绍

    第一章将帮助学员构建视觉语言导航(VLN)的认知与技术框架。本章将基于R2R基准详细介绍VLN任务的背景与设定。基于任务设定,我们探讨VLN任务中的核心挑战,目前的技术范式是怎么样的。这章我们将帮助学员构建对视觉语言导航的技术框架的认知,之后讲解的许多工作都在这个框架下有迹可循。

    第二章:VLN 基准与仿真环境

    第二章将介绍 VLN 的主要基准和常用仿真环境。R2R提出后,不断有新的任务设定被提出,不同的基准从不同的角度去定义视觉语言导航的核心挑战,也有其对应的评测指标。同时,大部分的VLN研究都基于仿真环境,了解如何使用MP3D是学习VLN的基石。本章末尾就安排了仿真环境的实战,让你在学习完理论之后就迅速实践得到正反馈。

    第三章:隐式端到端VLN

    第三章将深入讲解隐式端到端VLN模型的基础模块,让学员掌握视觉、语言特征提取和动作策略生成的核心算法。在这里我们会结合论文讲解穿插视觉预训练,视觉语言预选训练和语言特征如何提取。通过。我们还会对比模仿学习和强化学习,展示不同训练方法的优劣。

    第四章:显示端到端VLN

    第四章将详细探讨显示端到端视觉语言导航(VLN)模型的核心概念及其技术实现。通过显式编码和图神经网络,显示端到端VLN能够提升模型的精度和泛化能力,特别是在复杂环境中的导航任务中,显示端到端模型表现出强大的适应性。我们将讲解如何通过图表示和鸟瞰图(BEV)进行环境的建模,以及如何利用图神经网络增强视觉信息的处理和指令理解。通过对DUET和BSG等先进的图表征方法的深入分析,学员将了解这些方法如何通过创新性设计提高模型的性能。此外,作为当前SOTA(State of the Art)模型,VER模型的引入在VLN任务中的突破将为学员提供一套新的理论框架,并帮助他们理解这一技术的创新性和实用价值。

    第五章:VLN中的数据策略

    在第五章中,我们将集中讨论如何通过数据策略来优化VLN模型的训练过程,包括增广技术和辅助任务的设计。本章将深入讲解指令增广、视觉增广和辅助任务增广等方法,帮助学员提升模型的性能和泛化能力。通过介绍Speaker-Follower和Envedit等数据增广的代表性方法,学员可以了解不同增广策略的应用场景及其优缺点,从而在实际应用中做出合理的选择。同时,HAMT(历史信息辅助任务)的引入为模型提供了更高效的训练策略。本章内容将帮助学员深入理解如何通过合理的数据策略提升VLN任务的成功率和模型的鲁棒性。

    第六章:物体导航(Object Navigation)

    第六章将带领学员探讨物体导航与VLN的关系及其在复杂环境中的应用。物体导航任务要求机器人不仅能够导航到目标位置,还要能够识别并操作特定的物体,这对视觉感知与动作决策提出了更高的要求。本章将介绍VLN与物体导航的联系,特别是在视觉、指令和动作空间上的差异,帮助学员理解两者在任务执行中的不同之处。我们还将讨论物体导航任务的核心困难以及如何通过创新算法提高任务的成功率。通过分析端到端物体导航方法ZSON和模块化方法VLFM,学员将深入理解这些方法的算法动机、主体结构、损失函数和性能表现,从而掌握物体导航任务中的关键技术。

    第七章:VLN大作业:DUET

    第七章是本课程的核心实战部分,学员将在这一章节中通过DUET模型完成一系列任务,全面应用所学的视觉语言导航技术。大作业将帮助学员加深对VLN核心技术的理解,并通过实际操作进一步巩固学习成果。首先,我们将指导学员完成代码环境的配置和数据集的准备工作,确保实战环节能够顺利进行。随后,学员将逐步实现从场景观测的获取到动作策略的训练,逐步深入到VLN任务的各个环节。通过完成这一系列的任务,学员将能够实现从理论到实践的闭环,掌握VLN技术的实用技能,为未来的研究和工作奠定坚实的基础。

    讲师介绍

    Conner,专注于机器人导航领域,港三博士在读。拥有丰富的机器人导航实战经验和研究背景,曾在顶级会议CoRL和Neurips发表研究。

    你可能感兴趣的:(机器人)