Real-world dynamics shifts pose a critical challenge for reinforcement learning in robotics, as policies tightly coupled to nominal environments often fail catastrophically when physical conditions change. Most existing methods rely on encoding explicitly identified physical parameters into a latent context, a parameter-centric paradigm that depends on pre-specified axes of variation and becomes brittle under unmodeled or compound dynamics changes. We revisit dynamics adaptation from an outcome-centric perspective: rather than telling policies what the dynamics are, we enable them to learn how dynamics affect interaction outcomes. Theoretically, this is grounded in a monotonic relationship between target-domain regret and the Lipschitz constant of a trajectory dynamics encoder. Practically, this constant can be upper-bounded through contrastive learning, yielding a smooth, task-relevant latent topology without privileged dynamics information. On MuJoCo benchmarks, our method consistently outperforms parameter-centric baselines under severe dynamics shifts, including unmodeled and time-varying parameters, while also improving in-distribution stability and latent interpretability. Overall, these results validate that controlling latent geometry is a principled mechanism for robust adaptation.


翻译:现实世界中的动力学变化给机器人强化学习带来了严峻挑战,因为紧密耦合于标称环境的策略在物理条件改变时常常会灾难性失效。现有方法大多依赖于将显式识别的物理参数编码到潜在上下文中,这种以参数为中心的范式依赖于预先指定的变化轴,并在未建模或复合动力学变化下变得脆弱。我们从一个以结果为中心的视角重新审视动力学适应:与其告诉策略动力学是什么,不如让它们学习动力学如何影响交互结果。理论上,这建立在目标域遗憾与轨迹动力学编码器的Lipschitz常数之间的单调关系之上。实践上,通过对比学习可以对该常数进行上界约束,从而在没有特权动力学信息的情况下,生成平滑且任务相关的潜在拓扑结构。在MuJoCo基准测试中,我们的方法在严重的动力学变化(包括未建模和时变参数)下始终优于以参数为中心的基线方法,同时提升了分布内稳定性和潜在可解释性。总体而言,这些结果验证了控制潜在几何结构是实现稳健适应的一种原则性机制。

0
下载
关闭预览

相关内容

基于内在动机的深度强化学习探索方法综述
专知会员服务
40+阅读 · 2023年5月13日
【经典书】主动学习理论,226页pdf,Theory of Active Learning
专知会员服务
129+阅读 · 2021年7月14日
专知会员服务
10+阅读 · 2020年11月12日
【自动化学报】零样本学习研究进展,中国石油大学
专知会员服务
88+阅读 · 2020年1月27日
探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff?
深度强化学习实验室
13+阅读 · 2020年8月23日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
基于逆强化学习的示教学习方法综述
计算机研究与发展
16+阅读 · 2019年2月25日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
1+阅读 · 49分钟前
定向能反无人机系统最新发展动态
专知会员服务
3+阅读 · 今天13:50
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
2+阅读 · 今天13:33
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员