Vision-Language-Action (VLA) models have emerged as a promising paradigm for grounding visual-language understanding into real-world robotic manipulation. However, dexterous manipulation remains challenging for VLA policies due to high-dimensional hand control and compounding execution errors, which makes real-world RL post-training essential for bridging the gap between visually grounded action generation and physically reliable dexterous execution. However, high-dimensional dexterous exploration often triggers temporal inconsistency, sample inefficiency and hardware risks in the real world. To address these challenges, we propose BORA, an offline-to-online RL post-training framework designed for real-world dexterous VLA models. In the offline phase, BORA constructs a critic that takes both the VLM's cognition tokens and action chunks as inputs. This design enables action-conditioned value guidance, allowing the critic to evaluate dexterous hand motions beyond visual context alone. During the subsequent online phase, BORA freezes the VLA base and introduces a lightweight, Human-in-the-Loop (HiL) chunk-wise residual adaptation mechanism to mitigate real-world execution errors and further correct the offline-learned intents within the actual physical environment. By inheriting the offline critic and employing intervention-driven rewards, BORA effectively corrects execution discrepancies and adapts to real-world physical variances while preserving the pretrained policy as a stable prior. Extensive evaluations across five complex real-world dexterous tasks demonstrate that BORA significantly outperforms pure imitation learning and traditional decoupled RL baselines, achieving a 33% absolute increase in average success rate under standard settings and up to a 43% improvement in unseen object generalization.


翻译:摘要:视觉-语言-动作(VLA)模型已成为将视觉-语言理解映射到真实世界机器人操作任务中的一种极具前景的范式。然而,由于高维手部控制与复合执行误差,灵巧操作对VLA策略仍构成挑战,这使真实环境中的RL后训练成为弥合视觉引导动作生成与物理可靠灵巧执行之间差距的关键。然而,高维灵巧探索常引发真实场景中的时序不一致、样本低效性及硬件风险。为应对这些挑战,我们提出BORA——一个面向真实世界灵巧VLA模型的离线至在线RL后训练框架。在离线阶段,BORA构建一个同时接收VLM认知标记与动作片段作为输入的评判器(Critic)网络。该设计实现了动作条件化的价值引导机制,使评判器能够评估超越视觉上下文的灵巧手部运动。在后续在线阶段,BORA冻结VLA基座网络,引入轻量级人在回路(HiL)片段级残差自适应机制,以缓解真实世界执行误差并进一步修正实际物理环境中离线学习的意图。通过继承离线评判器并结合干预驱动奖励,BORA能有效修正执行偏差,适应真实物理变化,同时将预训练策略作为稳定先验保留。在五个复杂真实世界灵巧任务上的广泛评估表明,BORA显著超越纯模仿学习与传统解耦RL基线,在标准设置下实现平均成功率33%的绝对提升,并在未见物体泛化任务中取得高达43%的改进。

0
下载
关闭预览

相关内容

【综述】 机器人学习中的世界模型:全面综述
专知会员服务
20+阅读 · 5月4日
面向具身操作的高效视觉–语言–动作模型:系统综述
专知会员服务
26+阅读 · 2025年10月22日
视觉-语言-动作(VLA)模型的前世今生
专知会员服务
21+阅读 · 2025年8月29日
视觉语言动作模型:概念、进展、应用与挑战
专知会员服务
19+阅读 · 2025年5月18日
VILA-U:一个融合视觉理解与生成的统一基础模型
专知会员服务
21+阅读 · 2024年9月9日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
【泡泡图灵智库】密集相关的自监督视觉描述学习(RAL)
泡泡机器人SLAM
11+阅读 · 2018年10月6日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Arxiv
0+阅读 · 6月11日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 23分钟前
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 25分钟前
美以伊冲突:无人机与人工智能的运用
专知会员服务
2+阅读 · 37分钟前
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 57分钟前
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员