Model-based Reinforcement Learning (MBRL) has achieved remarkable success in continuous control by leveraging latent world models. However, prevailing approaches typically rely on monolithic latent dynamics, entangling environment dynamics into a coupled process. This coupling severely limits reusability: altering the agent necessitates retraining the entire world from scratch, even if the environment remains constant. To address this, we introduce BRICKS-WM (Building Reusability via Interface Composition Kinetics for Structured World Models), a framework for the modular assembly of structured world models. Driven by the insight that the physical world is composed of independent entities, we posit that global dynamics can be modeled as a composition of distinct dynamical modules interacting via latent interfaces. As a minimal instantiation, we factorize the latent state space into an actuated Agent module and an external Background module, bridged by a learned latent interface. Unlike prior object-centric methods that prioritize visual segmentation, BRICKS-WM enforces a functional separation in transition dynamics, ensuring that background dynamics remains agnostic to the agent's dynamics. Empirically, BRICKS-WM achieves control performance comparable to strong monolithic baselines when trained from scratch, and enables the reuse of frozen background dynamics across agents.


翻译:基于模型的强化学习(MBRL)通过利用潜在世界模型在连续控制任务中取得了显著成功。然而,现有方法通常依赖单一化的潜在动力学机制,将环境动态耦合为整体过程。这种耦合性严重限制了可重用性:即便环境保持不变,改变智能体也需要从头重新训练整个世界模型。为解决此问题,我们提出BRICKS-WM(基于接口组合动力学的结构化世界模型构建可重用性框架),一种用于模块化组装结构化世界模型的方法。受物理世界由独立实体构成的启发,我们认为全局动力学可建模为通过潜在接口交互的独立动力学模块的组合。作为最小化实例化,我们将潜在状态空间分解为被驱动的智能体模块和外部的背景模块,两者通过学得的潜在接口连接。不同于以往强调视觉分割的面向对象方法,BRICKS-WM在转移动力学中强制执行功能分离,确保背景动态对智能体动态保持不可知性。实验表明,BRICKS-WM从头训练时可达到与强单一化基线相当的控制性能,并支持跨智能体重用冻结的背景动力学。

0
下载
关闭预览

相关内容

【ICML2025】通过在线世界模型规划的持续强化学习
专知会员服务
20+阅读 · 2025年7月18日
【MIT博士论文】通过神经物理构建世界模型
专知会员服务
36+阅读 · 2025年4月3日
【ICML2020】强化学习中基于模型的方法,279页ppt
专知会员服务
48+阅读 · 2020年10月26日
【ICML2020】基于模型的强化学习方法教程,279页ppt
专知会员服务
129+阅读 · 2020年7月20日
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
深度强化学习简介
专知
30+阅读 · 2018年12月3日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Arxiv
0+阅读 · 5月18日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员