Vision-language-action (VLA) models that directly predict multi-step action chunks from current observations face inherent limitations due to constrained scene understanding and weak future anticipation capabilities. In contrast, video world models pre-trained on web-scale video corpora exhibit robust spatiotemporal reasoning and accurate future prediction, making them a natural foundation for enhancing VLA learning. Therefore, we propose \textit{GigaBrain-0.5M*}, a VLA model trained via world model-based reinforcement learning. Built upon \textit{GigaBrain-0.5}, which is pre-trained on over 10,000 hours of robotic manipulation data, whose intermediate version currently ranks first on the international RoboChallenge benchmark. \textit{GigaBrain-0.5M*} further integrates world model-based reinforcement learning via \textit{RAMP} (Reinforcement leArning via world Model-conditioned Policy) to enable robust cross-task adaptation. Empirical results demonstrate that \textit{RAMP} achieves substantial performance gains over the RECAP baseline, yielding improvements of approximately 30\% on challenging tasks including \texttt{Laundry Folding}, \texttt{Box Packing}, and \texttt{Espresso Preparation}. Critically, \textit{GigaBrain-0.5M$^*$} exhibits reliable long-horizon execution, consistently accomplishing complex manipulation tasks without failure as validated by real-world deployment videos on our \href{https://gigabrain05m.github.io}{project page}.


翻译:直接从当前观测预测多步动作块的视觉-语言-动作模型,因其受限的场景理解能力和薄弱的前瞻能力而面临固有局限。相比之下,在网络规模视频语料上预训练的视频世界模型展现出强大的时空推理与准确的未来预测能力,这使其成为增强VLA学习的天然基础。因此,我们提出了\textit{GigaBrain-0.5M*},一种通过基于世界模型的强化学习训练的VLA模型。该模型基于\textit{GigaBrain-0.5}构建,后者已在超过10,000小时的机器人操作数据上完成预训练,其当前中间版本在国际RoboChallenge基准测试中排名第一。\textit{GigaBrain-0.5M*}进一步通过\textit{RAMP}(基于世界模型条件策略的强化学习)整合了基于世界模型的强化学习,以实现鲁棒的跨任务适应能力。实证结果表明,\textit{RAMP}相较于RECAP基线取得了显著的性能提升,在包括\texttt{衣物折叠}、\texttt{装箱打包}和\texttt{意式浓缩咖啡制作}在内的挑战性任务上,性能提升约30\%。至关重要的是,\textit{GigaBrain-0.5M$^*$}展现出可靠的长时程执行能力,能够持续完成复杂的操作任务且无失败,这已通过我们\href{https://gigabrain05m.github.io}{项目页面}上的真实世界部署视频得到验证。

0
下载
关闭预览

相关内容

【NVDIA】世界动作模型是零样本策略
专知会员服务
10+阅读 · 2月21日
视觉-语言-动作模型解析:从模块构成到里程碑与挑战
专知会员服务
17+阅读 · 2025年12月17日
面向具身操作的高效视觉–语言–动作模型:系统综述
专知会员服务
24+阅读 · 2025年10月22日
视觉-语言-动作(VLA)模型的前世今生
专知会员服务
20+阅读 · 2025年8月29日
视觉语言动作模型:概念、进展、应用与挑战
专知会员服务
19+阅读 · 2025年5月18日
「知识增强预训练语言模型」最新研究综述
专知会员服务
62+阅读 · 2022年11月18日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员