Reinforcement learning algorithms are typically designed for discrete-time dynamics, even though the underlying real-world control systems are often continuous in time. In this paper, we study the problem of continuous-time reinforcement learning, where the unknown system dynamics are represented using nonlinear ordinary differential equations (ODEs). We leverage probabilistic models, such as Gaussian processes and Bayesian neural networks, to learn an uncertainty-aware model of the underlying ODE. Our algorithm, COMBRL, greedily maximizes a weighted sum of the extrinsic reward and model epistemic uncertainty. This yields a scalable and sample-efficient approach to continuous-time model-based RL. We show that COMBRL achieves sublinear regret in the reward-driven setting, and in the unsupervised RL setting (i.e., without extrinsic rewards), we provide a sample complexity bound. In our experiments, we evaluate COMBRL in both standard and unsupervised RL settings and demonstrate that it scales better, is more sample-efficient than prior methods, and outperforms baselines across several deep RL tasks.


翻译:强化学习算法通常针对离散时间动态设计,尽管底层现实世界控制系统在时间上往往是连续的。本文研究连续时间强化学习问题,其中未知系统动态使用非线性常微分方程表示。我们利用概率模型(如高斯过程和贝叶斯神经网络)来学习底层常微分方程的不确定性感知模型。我们的算法COMBRL通过贪婪最大化外部奖励与模型认知不确定性的加权和,实现了可扩展且样本高效的连续时间基于模型的强化学习方法。我们证明COMBRL在奖励驱动场景下能实现次线性遗憾,在无监督强化学习场景(即无外部奖励)中提供了样本复杂度界限。在实验中,我们在标准和无监督强化学习场景中评估COMBRL,证明其比现有方法具有更好的可扩展性、更高的样本效率,并在多个深度强化学习任务中优于基线方法。

0
下载
关闭预览

相关内容

【牛津博士论文】零样本强化学习综述
专知会员服务
31+阅读 · 2025年8月25日
离线强化学习研究综述
专知会员服务
38+阅读 · 2025年1月12日
面向强化学习的可解释性研究综述
专知会员服务
44+阅读 · 2024年7月30日
强化学习可解释性基础问题探索和方法综述
专知会员服务
92+阅读 · 2022年1月16日
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【MIT博士论文】数据高效强化学习,176页pdf
「强化学习可解释性」最新2022综述
专知
12+阅读 · 2022年1月16日
强化学习开篇:Q-Learning原理详解
AINLP
37+阅读 · 2020年7月28日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2月15日
VIP会员
最新内容
大语言模型溯因推理的统一分类学与综述
专知会员服务
0+阅读 · 10分钟前
美/以-伊战争:停火与后续情景与影响分析
专知会员服务
3+阅读 · 4月11日
美国-以色列-伊朗战争:是否会动用地面部队?
美国协同作战飞机项目新型无人机发动机
专知会员服务
1+阅读 · 4月11日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员