Robot learning from interacting with the physical world is fundamentally bottlenecked by the cost of physical interaction. The two alternatives, supervised finetuning (SFT) from expert demonstrations and reinforcement learning (RL) in a software-based simulator, are limited by the amount of expert data available and the sim-to-real gap for manipulation. With the recent emergence of world models learned from real-world video-action data, we ask the question of whether training a policy in a world model can be more effective than supervised learning or software simulation in achieving better real-robot performance. We propose World-Gymnast, which performs RL finetuning of a vision-language-action (VLA) policy by rolling out the policy in an action-conditioned video world model and rewarding the rollouts with a vision-language model (VLM). On the Bridge robot setup, World-Gymnast outperforms SFT by as much as 18x and outperforms software simulator by as much as 2x. More importantly, World-Gymnast demonstrates intriguing capabilities of RL with a world model, including training on diverse language instructions and novel scenes from the world model, test-time training in a novel scene, and online iterative world model and policy improvement. Our results suggest learning a world model and training robot policies in the cloud could be the key to bridging the gap between robots that work in demonstrations and robots that can work in anyone's household.


翻译:机器人通过与物理世界交互进行学习,从根本上受到物理交互成本的制约。两种替代方案——基于专家演示的监督微调(SFT)和在基于软件的模拟器中进行强化学习(RL)——分别受限于可用专家数据的数量以及操作任务中的模拟到现实差距。随着最近从真实世界视频-动作数据中学习得到的世界模型的出现,我们提出一个问题:在世界模型中训练策略,是否比监督学习或软件模拟更能有效提升真实机器人的性能?我们提出了World-Gymnast,该方法通过在动作条件化的视频世界模型中展开策略,并使用视觉语言模型(VLM)对展开结果进行奖励,从而对视觉-语言-动作(VLA)策略进行强化学习微调。在Bridge机器人实验设置中,World-Gymnast的性能超越SFT高达18倍,超越软件模拟器高达2倍。更重要的是,World-Gymnast展示了在世界模型中进行强化学习的引人注目的能力,包括基于世界模型中的多样化语言指令和新场景进行训练、在新场景中进行测试时训练,以及在线迭代式世界模型与策略改进。我们的结果表明,学习一个世界模型并在云端训练机器人策略,可能是弥合仅能在演示中工作的机器人与能够在任何家庭中工作的机器人之间差距的关键。

0
下载
关闭预览

相关内容

《机器人强化学习技术进展》34页
专知会员服务
38+阅读 · 2025年7月16日
《用于水下目标定位的平台便携式强化学习方法》
专知会员服务
27+阅读 · 2024年1月2日
基于模型的强化学习综述
专知会员服务
149+阅读 · 2022年7月13日
【ICRA2022】机器人强化学习工具教程, 附slides与视频
专知会员服务
40+阅读 · 2022年5月27日
【CMU博士论文】机器人深度强化学习,128页pdf
专知会员服务
133+阅读 · 2020年8月27日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
使用强化学习训练机械臂完成人类任务
AI研习社
14+阅读 · 2019年3月23日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
关于强化学习(附代码,练习和解答)
深度学习
37+阅读 · 2018年1月30日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
13+阅读 · 2016年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
VIP会员
相关VIP内容
《机器人强化学习技术进展》34页
专知会员服务
38+阅读 · 2025年7月16日
《用于水下目标定位的平台便携式强化学习方法》
专知会员服务
27+阅读 · 2024年1月2日
基于模型的强化学习综述
专知会员服务
149+阅读 · 2022年7月13日
【ICRA2022】机器人强化学习工具教程, 附slides与视频
专知会员服务
40+阅读 · 2022年5月27日
【CMU博士论文】机器人深度强化学习,128页pdf
专知会员服务
133+阅读 · 2020年8月27日
相关基金
国家自然科学基金
13+阅读 · 2016年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员