We derive a novel PAC-Bayesian generalization bound for reinforcement learning that explicitly accounts for Markov dependencies in the data, through the chain's mixing time. This contributes to overcoming challenges in obtaining generalization guarantees for reinforcement learning, where the sequential nature of data breaks the independence assumptions underlying classical bounds. The new bound provides non-vacuous certificates for modern off-policy algorithms such as Soft Actor-Critic. We demonstrate the practical utility of the bound through PB-SAC, a novel algorithm that optimizes the bound during training to guide exploration. Experiments across several continuous control tasks show that the proposed approach provides meaningful confidence certificates while maintaining competitive performance.


翻译:我们推导了一种新颖的强化学习PAC-Bayesian泛化界,该界通过马尔可夫链的混合时间显式地考虑了数据中的马尔可夫依赖性。这有助于克服为强化学习获取泛化保证的挑战,其中数据的序列性质打破了经典泛化界所依赖的独立性假设。该新界为现代离策略算法(如Soft Actor-Critic)提供了非平凡的保证证书。我们通过PB-SAC算法证明了该界的实际效用,PB-SAC是一种在训练过程中通过优化该界来指导探索的新算法。在多个连续控制任务上的实验表明,所提出的方法在保持竞争力的性能的同时,提供了有意义的置信度证书。

0
下载
关闭预览

相关内容

《基于深度强化学习的战场策略》
专知会员服务
37+阅读 · 2025年1月13日
【博士论文】基于信息论的泛化理论方法,274页pdf
专知会员服务
54+阅读 · 2024年6月3日
【博士论文】信息论视角下的泛化理论方法,274页pdf
专知会员服务
51+阅读 · 2024年4月28日
【ICML2023】在受限逆强化学习中的可识别性和泛化能力
专知会员服务
26+阅读 · 2023年6月5日
基于模型的强化学习综述
专知会员服务
48+阅读 · 2023年1月9日
UCL& UC Berkeley | 深度强化学习中的泛化研究综述
专知会员服务
61+阅读 · 2021年11月22日
【经典书】贝叶斯强化学习概述,147页pdf
专知会员服务
115+阅读 · 2021年11月21日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
「强化学习可解释性」最新2022综述
专知
12+阅读 · 2022年1月16日
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
15+阅读 · 2020年9月9日
Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证
深度强化学习实验室
19+阅读 · 2020年8月11日
548页MIT强化学习教程,收藏备用【PDF下载】
机器学习算法与Python学习
17+阅读 · 2018年10月11日
基于强化学习的量化交易框架
机器学习研究会
30+阅读 · 2018年2月22日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
VIP会员
相关资讯
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
「强化学习可解释性」最新2022综述
专知
12+阅读 · 2022年1月16日
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
15+阅读 · 2020年9月9日
Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证
深度强化学习实验室
19+阅读 · 2020年8月11日
548页MIT强化学习教程,收藏备用【PDF下载】
机器学习算法与Python学习
17+阅读 · 2018年10月11日
基于强化学习的量化交易框架
机器学习研究会
30+阅读 · 2018年2月22日
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员