Offline Reinforcement Learning (RL) faces a fundamental challenge of extrapolation errors caused by out-of-distribution (OOD) actions. Implicit Q-Learning (IQL) employs expectile regression to achieve in-sample learning. Nevertheless, IQL relies on a fixed expectile hyperparameter and a density-based policy improvement method, both of which impede its adaptability and performance. In this paper, we propose Projective IQL (PIQL), a projective variant of IQL enhanced with a support constraint. In the policy evaluation stage, PIQL substitutes the fixed expectile hyperparameter with a projection-based parameter and extends the one-step value estimation to a multi-step formulation. In the policy improvement stage, PIQL adopts a support constraint instead of a density constraint, ensuring closer alignment with the policy evaluation. Theoretically, we demonstrate that PIQL maintains the expectile regression and in-sample learning framework, guarantees monotonic policy improvement, and introduces a progressively more rigorous criterion for advantageous actions. Experiments on D4RL and NeoRL2 benchmarks demonstrate robust gains across diverse domains, achieving state-of-the-art performance overall.


翻译:离线强化学习面临由分布外动作引起的泛化误差这一根本性挑战。隐式Q学习采用期望回归实现样本内学习。然而,IQL依赖于固定的期望分位数超参数和基于密度的策略改进方法,这两者均限制了其适应性与性能。本文提出投影隐式Q学习,这是一种通过支撑约束增强的IQL投影变体。在策略评估阶段,PIQL将固定的期望分位数超参数替换为基于投影的参数,并将单步价值估计扩展为多步形式。在策略改进阶段,PIQL采用支撑约束替代密度约束,确保与策略评估更紧密对齐。理论上,我们证明PIQL保持了期望回归与样本内学习框架,保证了策略的单调改进,并为优势动作引入了逐步更严格的判定准则。在D4RL和NeoRL2基准测试上的实验表明,该方法在多个领域均取得显著性能提升,整体达到最先进的性能水平。

0
下载
关闭预览

相关内容

基于表征学习的离线强化学习方法研究综述
专知会员服务
29+阅读 · 2024年7月2日
《用于水下目标定位的平台便携式强化学习方法》
专知会员服务
27+阅读 · 2024年1月2日
专知会员服务
17+阅读 · 2020年12月4日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
强化学习开篇:Q-Learning原理详解
AINLP
37+阅读 · 2020年7月28日
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
入门 | 通过 Q-learning 深入理解强化学习
机器之心
12+阅读 · 2018年4月17日
入门 | 从Q学习到DDPG,一文简述多种强化学习算法
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2月3日
Arxiv
0+阅读 · 1月20日
VIP会员
相关资讯
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
强化学习开篇:Q-Learning原理详解
AINLP
37+阅读 · 2020年7月28日
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
入门 | 通过 Q-learning 深入理解强化学习
机器之心
12+阅读 · 2018年4月17日
入门 | 从Q学习到DDPG,一文简述多种强化学习算法
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员