Reinforcement-learning (RL) agents often struggle when deployed from simulation to the real-world. A dominant strategy for reducing the sim-to-real gap is domain randomization (DR) which trains the policy across many simulators produced by sampling dynamics parameters, but standard DR ignores offline data already available from the real system. We study offline domain randomization (ODR), which first fits a distribution over simulator parameters to an offline dataset. While a growing body of empirical work reports substantial gains with algorithms such as DROPO, the theoretical foundations of ODR remain largely unexplored. In this work, we cast ODR as a maximum-likelihood estimation over a parametric simulator family and provide statistical guarantees: under mild regularity and identifiability conditions, the estimator is weakly consistent (it converges in probability to the true dynamics as data grows), and it becomes strongly consistent (i.e., it converges almost surely to the true dynamics) when an additional uniform Lipschitz continuity assumption holds. We examine the practicality of these assumptions and outline relaxations that justify ODR's applicability across a broader range of settings. Taken together, our results place ODR on a principled footing and clarify when offline data can soundly guide the choice of a randomization distribution for downstream offline RL.


翻译:强化学习(RL)智能体从仿真环境部署到现实世界时常常面临困难。缩小仿真与现实差距的一种主流策略是领域随机化(DR),该方法通过在采样的动力学参数所生成的多个仿真器中训练策略,但标准DR忽略了从真实系统已可获取的离线数据。我们研究离线领域随机化(ODR),该方法首先根据离线数据集拟合仿真器参数上的分布。尽管越来越多的实证研究(例如DROPO等算法)报告了显著的性能提升,但ODR的理论基础在很大程度上仍未得到探索。在本工作中,我们将ODR建模为参数化仿真器族上的最大似然估计,并提供统计保证:在温和的正则性和可识别性条件下,该估计量具有弱一致性(随着数据量的增加,它以概率收敛于真实动力学),并且当附加一致Lipschitz连续性假设成立时,它变为强一致性(即几乎必然收敛于真实动力学)。我们检验了这些假设的实用性,并概述了放宽条件,以证明ODR在更广泛场景中的适用性。综合来看,我们的结果为ODR奠定了原则性基础,并阐明了离线数据何时能够可靠地指导下游离线RL中随机化分布的选择。

0
下载
关闭预览

相关内容

【ICML2024】深度强化学习中的随机潜在探索
专知会员服务
20+阅读 · 2024年7月19日
基于表征学习的离线强化学习方法研究综述
专知会员服务
29+阅读 · 2024年7月2日
【博士论文】安全的线上和线下强化学习,142页pdf
专知会员服务
23+阅读 · 2024年6月12日
【牛津大学博士论文】有效的离线训练与高效的在线适应
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
176+阅读 · 2020年2月8日
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【MIT博士论文】数据高效强化学习,176页pdf
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员