RSS 2025|96.3%成功率!中科院提出ConRFT:让机器人灵活穿针,强化学习微调!

从数据层面来看,基于监督学习的微调方式高度依赖演示数据的数量与质量。但在现实场景里,这些数据往往存在局限,数据量有限且一致性差,难以涵盖机器人可能遭遇的各种复杂状态。比如在接触密集的操作环境中,由于演示者操作的差异,导致数据中的动作和轨迹存在偏差,这使得模型在学习过程中难以获取准确、稳定的信息,进而影响其在真实任务中的表现。
从技术角度分析,传统强化学习在 VLA 模型中的应用也面临困境。尽管强化学习在其他领域取得了显著成果,但在 VLA 模型所需的真实物理交互场景中,直接应用却困难重重。在接触密集的环境下收集数据,不仅要考虑高昂的成本,更要保障安全,这对样本效率和风险感知探索提出了极高要求,而传统强化学习方法难以满足这些需求。此外,现有的离线到在线方法通常假定有大规模、多样化且状态覆盖充分的数据集,但这一条件在实际应用中很难达成,限制了模型的训练效果和泛化能力。
针对上述难题,一种名为基于一致性的强化学习微调(ConRFT)方法被提出。
该方法设计了统一的基于一致性的训练目标,巧妙融合离线和在线微调两个阶段。在离线阶段,创新性地结合行为克隆和 Q 学习,从少量演示数据中精准提取策略,稳定价值估计,有效缓解了数据不足和不一致带来的问题。在线阶段,通过一致性策略进一步微调模型,并引入人类干预机制,在保障安全探索的同时,极大地提高了样本效率。
如下方视频所示,通过ConRFT仅需40分钟的在线微调即可在在穿针任务上取得70%的成功率。
视频1-Octo-small模型经过40分钟微调学会穿针任务,并取得70%的成功率
ConRFT不仅解决了 VLA 模型在微调过程中面临的关键问题,还为其在真实世界机器人应用中的高效、安全运行提供了切实可行的方案,为 VLA 模型的发展开辟了新的路径 。

RSS 2025|96.3%成功率!中科院提出ConRFT:让机器人灵活穿针,强化学习微调!_第1张图片

ConRFT 作为一种全新的强化微调方法,旨在优化 VLA 模型在机器人操作任务中的表现,如图1所示,其核心由离线微调(Cal-ConRFT)和在线微调(HIL-ConRFT)两个紧密相连的阶段构成,二者均基于统一的一致性训练目标,协同提升模型性能。
图1-ConRFT框架
■ 2.1. 离线微调Cal-ConRFT
鉴于预训练 VLA 模型在应对新型机器人配置时零样本泛化能力的不足,离线微调阶段聚焦于利用小规模预收集离线数据集(20 - 30 个演示)进行策略训练,为后续的在线学习构建稳定的策略和价值函数初始值。
校准 Q 学习(Cal-QL):
在 Cal-ConRFT 的离线微调中,校准 Q 学习(Cal-QL)被用作基础方法来训练 Q 函数。它通过减少时间差分误差和引入额外的正则化项,在预收集的数据集上对 Q 函数进行训练 。其训练评论家(critic)的目标函数为:在这个公式中,表示由参数化的学习到的 Q 函数,是由参数化的延迟目标 Q 函数;作为贝尔曼算子,用于更新 Q 值,是超参数,用于控制保守惩罚的程度;表示演示数据存储缓冲区。通过这个公式,Cal-QL能够使 Q 函数对分布外的动作具备更强的鲁棒性。
引入行为克隆(BC):
考虑到 Cal-QL 在面对少量演示数据时,可能因状态覆盖不足导致价值估计不准确、策略泛化能力弱的问题,引入 BC 损失进行优化。BC 损失通过直接最小化策略生成动作与演示动作之间的差异,为模型提供额外监督信号,帮助模型在数据有限的情况下学习更有效的策略。基于一致性目标将 BC 损失与 Q 指导相结合,得到 Cal-ConRFT 的训练目标函数:
其中,表示以一致性策略为动作头的 VLA 模型,是由参数化的一致性策略;)是由参数化的预训练 VLA 模型编码的状态;代表欧几里得距离;,是用于平衡Q 损失和 BC 损失的超参数。此公式使得模型在离线训练阶段,即便面对少量演示数据,也能有效学习策略并稳定估计价值,为在线微调提供可靠初始化。
■ 2.2. 在线微调HIL-ConRFT
尽管离线微调为模型提供了初始策略,但受限于预收集演示数据的范围和质量,模型性能仍有待提升。在线微调阶段(HIL-ConRFT)通过与真实环境的交互,利用一致性策略对 VLA 模型进行进一步优化。
数据处理与 Q 损失更新:
在线训练过程中,保留离线阶段的演示缓冲区,同时引入回放缓冲区存储在线数据。采用对称采样策略,从两个缓冲区中均匀采样组成训练批次,有效减少了分布转移问题。使用标准 Q 损失更新在线评论家,其公式为:
该公式依据当前策略生成的新转换数据,不断调整 Q 函数,使模型更好地适应真实环境。
基于一致性的训练目标与参数调整:
VLA 模型在线微调的一致性训练目标与离线阶段相似,公式为:
在线阶段,通常适当降低 BC 损失权重,增加 Q 损失权重。但保留 BC 损失至关重要,一方面,它确保策略与演示数据保持一致,避免策略出现过大偏差,维持复杂操作任务中动作的准确性和稳定性;另一方面,BC 损失能够稳定探索过程,降低随机状态-动作空间中强化学习的不稳定性,减少策略偏离离线模版导致的不安全或低效行为。

人类干预机制:

通过人在回路学习将人类干预集成到在线阶段。在机器人探索过程中,人类操作员可实时进行干预,提供纠正动作,这些纠正动作会被添加到演示缓冲区中。人类干预在机器人可能出现危险行为(如碰撞障碍物、施加过大力量)或陷入局部最优解时发挥关键作用,引导机器人走向更安全、高效的行为路径,加速策略收敛,使模型在在线微调过程中更快速、稳定地优化。

为全面评估 ConRFT 方法在真实世界场景中微调 VLA 模型的有效性和效率,研究团队开展了一系列严谨的实验,涵盖八个不同类型的操作任务。这些任务包含物体放置、精密接触操作以及动态物体处理等,充分模拟了机器人在实际应用中可能面临的复杂情况。
图2-真实世界中8个不同类型的任务
实验设置:选用 Octo - small 模型,并采用一致性策略作为动作头,搭载于 7 自由度的 Franka Emika 机械臂上执行任务。状态观察融合了腕部摄像头和侧摄像头的 RGB 图像,以及机械臂的本体感受状态信息;动作空间依据任务需求,设定为 6 维或 7 维 。在训练前,通过人工操作收集正负演示数据,训练二进制分类器,用于判断任务是否成功完成。同时,随机化每个任务的初始状态,以增强模型的泛化能力。
成功率显著提升:ConRFT 在所有任务上展现出极高的成功率如图3所示,经过 45 - 90 分钟的在线微调后,平均成功率达到 96.3%,相较于监督学习基线方法,提升幅度高达 144%。与 HG-DAgger 和 PA-RL 等先进方法相比,优势也十分明显,HG-DAgger 平均成功率为 65%,PA-RL 为 71.3%。
以 “Insert Wheel” 任务为例,HG-DAgger 由于人类校正的不一致性,在线微调后策略改进有限;PA-RL 则因演示缓冲区和回放缓冲区的状态覆盖不足,难以处理任务中细微的状态变化,导致性能欠佳。而 ConRFT 通过强化学习有效缓解了这些问题,直接优化策略以获取任务特定奖励,从而实现了更高的成功率。
回合长度大幅缩短:评估策略性能的另一个关键指标是回合长度,它反映了策略完成任务所需的总步数。如图3所示,使用 HIL-ConRFT 微调的 VLA 模型平均回合长度仅为 30.7 步,相比离线基线缩短了 1.9 倍。相比之下,HG-DAgger 平均回合长度为 56.3 步,PA-RL 为 51.1 步。这表明 ConRFT 能够充分利用马尔可夫决策过程的动态特性,通过一致性策略优化 VLA 模型,促使策略更快地获取奖励,进而显著缩短了完成任务的步数,提高了样本效率。
图3-与不同的离线/在线微调方法的对比

在机器人操作领域,VLA 模型受数据局限,以往在传统微调方法下表现欠佳、操作 “笨手笨脚”。
而 ConRFT 方法创新性地融合离线和在线微调,基于统一一致性训练目标,在离线阶段借助 Cal - ConRFT 结合 Cal-QL 与 BC 损失来稳定价值估计、学习有效策略,在线阶段通过 HIL-ConRFT 利用一致性策略微调并引入人类干预,提升样本效率与安全性。
经实验验证,其使 VLA 模型在 8 个真实任务中的平均成功率达 96.3%,回合长度缩短 1.9 倍,实现了从 “笨手笨脚” 到 “灵活自如” 的转变。
不过,ConRFT 存在对奖励工程敏感及模型部分组件在线优化受限的问题,未来可从改进奖励设计与探索模型优化技术方面进一步研究,以推动 VLA 模型在机器人操作领域的深入应用。

你可能感兴趣的:(扩散策略,具身智能,强化学习及自动驾驶,机器人)