To date, distributional reinforcement learning (distributional RL) methods have exclusively focused on the discounted setting, where an agent aims to optimize a discounted sum of rewards over time. In this work, we extend distributional RL to the average-reward setting, where an agent aims to optimize the reward received per time step. In particular, we utilize a quantile-based approach to develop the first set of algorithms that can successfully learn and/or optimize the long-run per-step reward distribution, as well as the differential return distribution of an average-reward MDP. We derive proven-convergent tabular algorithms for both prediction and control, as well as a broader family of algorithms that have appealing scaling properties. Empirically, we find that these algorithms yield competitive and sometimes superior performance when compared to their non-distributional equivalents, while also capturing rich information about the long-run per-step reward and differential return distributions.


翻译:迄今为止,分布强化学习方法仅关注于折扣设定,即智能体旨在优化随时间折扣的奖励总和。在本工作中,我们将分布强化学习扩展到平均奖励设定,其中智能体旨在优化每时间步获得的奖励。具体而言,我们采用基于分位数的方法,开发了第一套能够成功学习和/或优化长期每步奖励分布以及平均奖励马尔可夫决策过程的差分回报分布的算法。我们推导出用于预测和控制的经证明收敛的表格算法,以及一个具有良好扩展性的更广泛的算法家族。实证结果表明,与对应的非分布算法相比,这些算法在产生竞争性甚至有时更优性能的同时,还能捕获关于长期每步奖励和差分回报分布的丰富信息。

0
下载
关闭预览

相关内容

面向视觉的强化学习综述
专知会员服务
21+阅读 · 2025年8月12日
【2023新书】分布式强化学习, 406页pdf
专知会员服务
180+阅读 · 2023年6月5日
【NeurIPS2022】分布式自适应元强化学习
专知会员服务
24+阅读 · 2022年10月8日
【新书】分布式强化学习,280页pdf
专知会员服务
161+阅读 · 2021年12月19日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
【新书】分布式强化学习,280页pdf
专知
23+阅读 · 2021年12月19日
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
18+阅读 · 2020年9月1日
探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff?
深度强化学习实验室
13+阅读 · 2020年8月23日
强化学习的两大话题之一,仍有极大探索空间
AI科技评论
22+阅读 · 2020年8月22日
一文了解强化学习
AI100
15+阅读 · 2018年8月20日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
相关资讯
【新书】分布式强化学习,280页pdf
专知
23+阅读 · 2021年12月19日
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
18+阅读 · 2020年9月1日
探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff?
深度强化学习实验室
13+阅读 · 2020年8月23日
强化学习的两大话题之一,仍有极大探索空间
AI科技评论
22+阅读 · 2020年8月22日
一文了解强化学习
AI100
15+阅读 · 2018年8月20日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员