耦合局部与全局世界模型实现高效一阶强化学习 (Coupled Local and Global World Models for Efficient First Order RL) - 专知论文

会员服务 ·

0

世界模型 · 耦合 · 操作 · 模型实现 · 梯度 ·

Coupled Local and Global World Models for Efficient First Order RL

翻译：耦合局部与全局世界模型实现高效一阶强化学习

Joseph Amigo,Rooholla Khorrambakht,Nicolas Mansard,Ludovic Righetti

World models offer a promising avenue for more faithfully capturing complex dynamics, including contacts and non-rigidity, as well as complex sensory information, such as visual perception, in situations where standard simulators struggle. However, these models are computationally complex to evaluate, posing a challenge for popular RL approaches that have been successfully used with simulators to solve complex locomotion tasks but yet struggle with manipulation. This paper introduces a method that bypasses simulators entirely, training RL policies inside world models learned from robots' interactions with real environments. At its core, our approach enables policy training with large-scale diffusion models via a novel decoupled first-order gradient (FoG) method: a full-scale world model generates accurate forward trajectories, while a lightweight latent-space surrogate approximates its local dynamics for efficient gradient computation. This coupling of a local and global world model ensures high-fidelity unrolling alongside computationally tractable differentiation. We demonstrate the efficacy of our method on the Push-T manipulation task, where it significantly outperforms PPO in sample efficiency. We further evaluate our approach through an ego-centric object manipulation task with a quadruped. Together, these results demonstrate that learning inside data-driven world models is a promising pathway for solving hard-to-model RL tasks in image space without reliance on hand-crafted physics simulators.

翻译：世界模型为更精确地捕捉复杂动态（包括接触与非刚性效应）及复杂感知信息（如视觉感知）提供了有前景的途径，尤其适用于标准仿真器难以处理的场景。然而，这类模型的计算复杂度较高，对已成功应用于复杂运动任务但仍在操作任务中面临挑战的主流RL方法构成了障碍。本文提出一种完全绕过仿真器的方法，通过在从机器人真实环境交互中学习的世界模型内部训练RL策略。本方法的核心是通过新颖的解耦一阶梯度（FoG）方法实现基于大规模扩散模型的策略训练：完整规模的世界模型生成精确的前向轨迹，而轻量级潜空间代理模型则近似其局部动态以实现高效梯度计算。这种局部与全局世界模型的耦合机制，在保证高保真轨迹展开的同时实现了计算可行的微分运算。我们在Push-T操作任务上验证了本方法的有效性，其样本效率显著超越PPO算法。进一步通过四足机器人的以自我为中心物体操作任务进行评估。综合结果表明：在数据驱动的世界模型内部进行学习，为在图像空间中解决难以建模的RL任务提供了一条不依赖手工物理仿真器的可行路径。

0

相关内容

世界模型

从二维到三维认知：通用世界模型简要综述

从二维到三维认知：通用世界模型简要综述

专知会员服务

29+阅读 · 2025年6月26日

【MIT博士论文】通过神经物理构建世界模型

【MIT博士论文】通过神经物理构建世界模型

专知会员服务

34+阅读 · 2025年4月3日

《战斗模拟中的强化学习》

《战斗模拟中的强化学习》

专知会员服务

41+阅读 · 2024年12月10日

【ICML2024】上下文感知标记化的高效世界模型

【ICML2024】上下文感知标记化的高效世界模型

专知会员服务

29+阅读 · 2024年7月2日

扩散模型和强化学习如何结合？上交最新《强化学习中的扩散模型》综述

扩散模型和强化学习如何结合？上交最新《强化学习中的扩散模型》综述

专知会员服务

83+阅读 · 2023年11月3日

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

专知会员服务

61+阅读 · 2023年7月16日

【硬核书】深度强化学习实践手册：应用现代RL方法，包括深度Q网络、值迭代、策略梯度、TRPO、AlphaGo等，547页pdf

【硬核书】深度强化学习实践手册：应用现代RL方法，包括深度Q网络、值迭代、策略梯度、TRPO、AlphaGo等，547页pdf

专知会员服务

79+阅读 · 2022年12月11日

《综述：强化学习在航空中的应用》第一份调查航空领域RL方法的研究论文，2022最新论文

《综述：强化学习在航空中的应用》第一份调查航空领域RL方法的研究论文，2022最新论文

专知会员服务

49+阅读 · 2022年11月15日

基于模型的强化学习综述

基于模型的强化学习综述

专知会员服务

149+阅读 · 2022年7月13日

【伯克利JD Co-Reyes博士论文】建立强化学习算法泛化:从潜在动力学模型到元学习，Building Reinforcement Learning Algorithms that Generalize: From Latent Dynamics Models to Meta-Learning

【伯克利JD Co-Reyes博士论文】建立强化学习算法泛化:从潜在动力学模型到元学习，Building Reinforcement Learning Algorithms that Generalize: From Latent Dynamics Models to Meta-Learning

专知会员服务

45+阅读 · 2022年3月6日

「知识增强预训练语言模型」最新研究综述

「知识增强预训练语言模型」最新研究综述

专知

18+阅读 · 2022年11月18日

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

图怎么用强化学习？东北大学最新《图强化学习》综述论文，54页pdf阐述GRL方法、数据与应用

图怎么用强化学习？东北大学最新《图强化学习》综述论文，54页pdf阐述GRL方法、数据与应用

专知

12+阅读 · 2022年4月14日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知

14+阅读 · 2019年10月9日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

多层动态网络的建模、群体动力学分析与控制

国家自然科学基金

3+阅读 · 2015年12月31日

基于多模态信息集成的组合预测模型及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

非局部总变差正则化图像恢复模型的快速子空间校正算法

国家自然科学基金

0+阅读 · 2014年12月31日

面向地理模型集成与运行的数据适配方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

反馈神经网络统一模型临界动力学研究及其在类脑计算机研制中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

一种面向非共格性界面的分级式多尺度力学模型及应用

国家自然科学基金

0+阅读 · 2014年12月31日

千万自由度量级并行有限元模态和振动分析软件研发

国家自然科学基金

0+阅读 · 2014年12月31日

复杂场景中基于分数阶微积分的局部形状匹配方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

概率图模型学习及其在数据分析中的应用研究

国家自然科学基金

16+阅读 · 2013年12月31日

stable-worldmodel-v1: Reproducible World Modeling Research and Evaluation

stable-worldmodel-v1: Reproducible World Modeling Research and Evaluation

Arxiv

0+阅读 · 2月17日

Simulating the Real World: A Unified Survey of Multimodal Generative Models

Arxiv

0+阅读 · 2月16日

WoVR: World Models as Reliable Simulators for Post-Training VLA Policies with RL

Arxiv

0+阅读 · 2月15日

GigaBrain-0.5M*: a VLA That Learns From World Model-Based Reinforcement Learning

Arxiv

0+阅读 · 2月12日

ContactGaussian-WM: Learning Physics-Grounded World Model from Videos

Arxiv

0+阅读 · 2月11日

Optimistic World Models: Efficient Exploration in Model-Based Deep Reinforcement Learning

Arxiv

0+阅读 · 2月10日

stable-worldmodel-v1: Reproducible World Modeling Research and Evaluation

Arxiv

0+阅读 · 2月9日

World-VLA-Loop: Closed-Loop Learning of Video World Model and VLA Policy

Arxiv

0+阅读 · 2月6日

An Empirical Study of World Model Quantization

Arxiv

0+阅读 · 2月2日

CASSANDRA: Programmatic and Probabilistic Learning and Inference for Stochastic World Modeling

Arxiv

0+阅读 · 1月26日

VIP会员

文章信息

相关主题

相关VIP内容

从二维到三维认知：通用世界模型简要综述

从二维到三维认知：通用世界模型简要综述

专知会员服务

29+阅读 · 2025年6月26日

【MIT博士论文】通过神经物理构建世界模型

【MIT博士论文】通过神经物理构建世界模型

专知会员服务

34+阅读 · 2025年4月3日

《战斗模拟中的强化学习》

《战斗模拟中的强化学习》

专知会员服务

41+阅读 · 2024年12月10日

【ICML2024】上下文感知标记化的高效世界模型

【ICML2024】上下文感知标记化的高效世界模型

专知会员服务

29+阅读 · 2024年7月2日

扩散模型和强化学习如何结合？上交最新《强化学习中的扩散模型》综述

扩散模型和强化学习如何结合？上交最新《强化学习中的扩散模型》综述

专知会员服务

83+阅读 · 2023年11月3日

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

专知会员服务

61+阅读 · 2023年7月16日

【硬核书】深度强化学习实践手册：应用现代RL方法，包括深度Q网络、值迭代、策略梯度、TRPO、AlphaGo等，547页pdf

【硬核书】深度强化学习实践手册：应用现代RL方法，包括深度Q网络、值迭代、策略梯度、TRPO、AlphaGo等，547页pdf

专知会员服务

79+阅读 · 2022年12月11日

《综述：强化学习在航空中的应用》第一份调查航空领域RL方法的研究论文，2022最新论文

《综述：强化学习在航空中的应用》第一份调查航空领域RL方法的研究论文，2022最新论文

专知会员服务

49+阅读 · 2022年11月15日

基于模型的强化学习综述

基于模型的强化学习综述

专知会员服务

149+阅读 · 2022年7月13日

【伯克利JD Co-Reyes博士论文】建立强化学习算法泛化:从潜在动力学模型到元学习，Building Reinforcement Learning Algorithms that Generalize: From Latent Dynamics Models to Meta-Learning

【伯克利JD Co-Reyes博士论文】建立强化学习算法泛化:从潜在动力学模型到元学习，Building Reinforcement Learning Algorithms that Generalize: From Latent Dynamics Models to Meta-Learning

专知会员服务

45+阅读 · 2022年3月6日

热门VIP内容

开通专知VIP会员享更多权益服务

《可信人工智能赋能系统的支柱》

《从经典神经网络到不确定性下的拓扑神经网络：军事应用》2026最新40页报告

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

《人工智能：对战略与力量的影响》slides

相关资讯

「知识增强预训练语言模型」最新研究综述

「知识增强预训练语言模型」最新研究综述

专知

18+阅读 · 2022年11月18日

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

图怎么用强化学习？东北大学最新《图强化学习》综述论文，54页pdf阐述GRL方法、数据与应用

图怎么用强化学习？东北大学最新《图强化学习》综述论文，54页pdf阐述GRL方法、数据与应用

专知

12+阅读 · 2022年4月14日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知

14+阅读 · 2019年10月9日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

stable-worldmodel-v1: Reproducible World Modeling Research and Evaluation

stable-worldmodel-v1: Reproducible World Modeling Research and Evaluation

Arxiv

0+阅读 · 2月17日

Simulating the Real World: A Unified Survey of Multimodal Generative Models

Arxiv

0+阅读 · 2月16日

WoVR: World Models as Reliable Simulators for Post-Training VLA Policies with RL

Arxiv

0+阅读 · 2月15日

GigaBrain-0.5M*: a VLA That Learns From World Model-Based Reinforcement Learning

Arxiv

0+阅读 · 2月12日

ContactGaussian-WM: Learning Physics-Grounded World Model from Videos

Arxiv

0+阅读 · 2月11日

Optimistic World Models: Efficient Exploration in Model-Based Deep Reinforcement Learning

Arxiv

0+阅读 · 2月10日

stable-worldmodel-v1: Reproducible World Modeling Research and Evaluation

Arxiv

0+阅读 · 2月9日

World-VLA-Loop: Closed-Loop Learning of Video World Model and VLA Policy

Arxiv

0+阅读 · 2月6日

An Empirical Study of World Model Quantization

Arxiv

0+阅读 · 2月2日

CASSANDRA: Programmatic and Probabilistic Learning and Inference for Stochastic World Modeling

Arxiv

0+阅读 · 1月26日

相关基金

多层动态网络的建模、群体动力学分析与控制

国家自然科学基金

3+阅读 · 2015年12月31日

基于多模态信息集成的组合预测模型及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

非局部总变差正则化图像恢复模型的快速子空间校正算法

国家自然科学基金

0+阅读 · 2014年12月31日

面向地理模型集成与运行的数据适配方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

反馈神经网络统一模型临界动力学研究及其在类脑计算机研制中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

一种面向非共格性界面的分级式多尺度力学模型及应用

国家自然科学基金

0+阅读 · 2014年12月31日

千万自由度量级并行有限元模态和振动分析软件研发

国家自然科学基金

0+阅读 · 2014年12月31日

复杂场景中基于分数阶微积分的局部形状匹配方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

概率图模型学习及其在数据分析中的应用研究

国家自然科学基金

16+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员