Proximal Policy Optimization (PPO) is widely used in reinforcement learning due to its strong empirical performance, yet it lacks formal guarantees for policy improvement and convergence. PPO's clipped surrogate objective is motivated by a lower bound on linearization of the value function in flat geometry setting. We derive a tighter surrogate objective and introduce Fisher-Rao PPO (FR-PPO) by leveraging the Fisher-Rao (FR) geometry. Our scheme provides strong theoretical guarantees, including monotonic policy improvement. In the direct parametrization setting, we show that FR-PPO achieves sub-linear convergence with no dependence on action or state space dimensions, and for parametrized policies we further obtain sub-linear convergence up to the compatible function approximation error. Finally, although our primary focus is theoretical, we also demonstrate empirically that FR-PPO performs well across a range of standard reinforcement learning tasks.


翻译:近端策略优化(PPO)因其强大的实证性能而被广泛应用于强化学习,但其在策略改进与收敛性方面缺乏形式化保证。PPO 的裁剪替代目标源于平坦几何设置下价值函数线性化的一个下界。我们推导出一个更紧致的替代目标,并通过利用 Fisher-Rao(FR)几何,引入了 Fisher-Rao PPO(FR-PPO)。我们的方案提供了强有力的理论保证,包括单调策略改进。在直接参数化设置下,我们证明 FR-PPO 实现了次线性收敛,且不依赖于动作或状态空间的维度;对于参数化策略,我们进一步获得了达到兼容函数逼近误差的次线性收敛性。最后,尽管我们的主要关注点是理论分析,但我们也通过实证表明,FR-PPO 在一系列标准强化学习任务中表现良好。

0
下载
关闭预览

相关内容

专知会员服务
18+阅读 · 2021年4月24日
专知会员服务
42+阅读 · 2021年4月2日
【ICLR2022顶会论文分享】PPO算法的37个Implementation细节
深度强化学习实验室
24+阅读 · 2022年5月4日
一文读懂线性回归、岭回归和Lasso回归
CSDN
34+阅读 · 2019年10月13日
腊月廿八 | 强化学习-TRPO和PPO背后的数学
AI研习社
18+阅读 · 2019年2月2日
博客 | 机器学习中的数学基础(凸优化)
AI研习社
14+阅读 · 2018年12月16日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月15日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员