Octo:伯克利开源机器人开发框架

Octo:伯克利开源机器人开发框架_第1张图片

【摘要】在各种机器人数据集上预先训练的大型策略有可能改变机器人学习:这种通用机器人策略无需从头开始训练新策略,只需使用少量领域内数据即可进行微调,但具有广泛的泛化能力。然而,为了广泛应用于各种机器人学习场景、环境和任务,这些策略需要处理不同的传感器和动作空间,适应各种常用的机器人平台,并轻松高效地微调到新领域。在这项工作中,我们旨在为开发开源、广泛适用的通用机器人操作策略奠定基础。作为第一步,我们引入了 Octo,这是一种基于大型 Transformer 的策略,在 Open X-Embodiment 数据集(迄今为止最大的机器人操作数据集)上的 800k 条轨迹上进行训练。它可以通过语言命令或目标图像进行指示,并且可以在标准消费级 GPU 上在几个小时内通过新的感官输入和动作空间有效地微调到机器人设置。在 9 个机器人平台上的实验中,我们证明了 Octo 是一种多功能策略初始化,可以有效地微调到新的观察和动作空间。我们还对 Octo 模型的设计决策进行了详细的讨论,从架构到训练数据,以指导未来构建通用机器人模型的研究。

原文:Octo: An Open-Source Generalist Robot Policy
地址:https://arxiv.org/abs/2405.12213v2
代码:https://octo-models.github.io
出版:未知
机构: UC Berkeley, Stanford

写的这么辛苦,麻烦关注微信公众号“码农的科研笔记”!

1 研究问题

本文研究的核心问题是: 如何设计一个开源的、通用的、可适配不同机器人和任务的机器人操作策略模型。

想象一下在一个机器人实验室里,有各种不同型号和功能的机器人,比如WidowX机械臂、UR5工业机器人、CMU厨师机器人等。研究人员希望能有一个统一的模型框架,通过少量的适配和微调,就能让不同的机器人完成多样化的任务,比如抓取物体、开关抽屉、操作家电等。同时这个框架最好是开源的,能够方便地在学术界和工业界推广应用。

本文研究问题的特点和现有方法面临的挑战主要体现在以下几个方面:

  • 现有的机器人学习方法大多针对特定的机器人和任务,泛化能力有限。训练一个新的机器人完成一个新的任务,往往需要从头收集数据、训练模型,代价很高。

  • 不同的机器人在硬件构型、传感器类型、动作空间等方面存在很大差异。很难设计一个统一的模型架构,能够灵活适配不同机器人的观察和动作接口。

  • 大规模机器人操作数据的缺乏。与计算机视觉和自然语言处理不同,获取大量多样化的机器人互动数据需要巨大的硬件投入和人力成本。缺乏高质量的数据限制了通用机器人模型的训练。

  • 模型的实用性和可访问性有待提高。很多先进的机器人学习模型要么是私有的,要么对计算资源要求很高,在实际场景中的应用受到限制。

针对这些挑战,本文提出了一种灵活且可扩展的"八爪鱼(Octo)"机器人通用策略:

Oct

你可能感兴趣的:(Octo:伯克利开源机器人开发框架)