Singular learning theory characterizes Bayesian learning as an evolving tradeoff between accuracy and complexity, with transitions between qualitatively different solutions as sample size increases. We extend this theory to reinforcement learning, proving that the concentration of a generalized posterior over policies is governed by the local learning coefficient (LLC), an invariant of the geometry of the regret function. This theory predicts that deep reinforcement learning with SGD should proceed from simple policies with high regret to complex policies with low regret. We verify this prediction empirically in a gridworld environment exhibiting stagewise policy development: phase transitions over training manifest as "opposing staircases" where regret decreases sharply while the LLC increases.


翻译:奇异学习理论将贝叶斯学习描述为准确性与复杂性之间随样本量增加而演化的权衡过程,其间伴随着不同性质解之间的转变。我们将该理论拓展至强化学习领域,证明策略广义后验分布的集中性由局部学习系数(LLC)所主导——该系数是遗憾函数几何结构的不变量。该理论预测,基于随机梯度下降的深度强化学习应当经历从高遗憾的简单策略向低遗憾的复杂策略演进的过程。我们在网格世界环境中通过实证验证了这一预测,该环境展现出阶段性策略发展特征:训练过程中的相变表现为"反向阶梯"现象,即遗憾值急剧下降的同时局部学习系数同步上升。

0
下载
关闭预览

相关内容

几何观点下的深度学习
专知会员服务
36+阅读 · 2022年12月13日
【经典书】贝叶斯强化学习概述,147页pdf
专知会员服务
115+阅读 · 2021年11月21日
【课程推荐】 深度学习中的几何(Geometry of Deep Learning)
专知会员服务
59+阅读 · 2019年11月10日
【深度】让DL可解释?这一份66页贝叶斯深度学习教程告诉你
GAN生成式对抗网络
15+阅读 · 2018年8月11日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Arxiv
0+阅读 · 3月14日
VIP会员
最新内容
《新兴技术武器化及其对全球风险的影响》
专知会员服务
8+阅读 · 4月29日
《帕兰泰尔平台介绍:信息分析平台》
专知会员服务
19+阅读 · 4月29日
智能体化世界建模:基础、能力、规律及展望
专知会员服务
11+阅读 · 4月28日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员