PIQL: Projective Implicit Q-Learning with Support Constraint for Offline Reinforcement Learning - 专知论文

会员服务 ·

0

约束 · 投影 · Q学习 · 离线强化学习 · 样本 ·

PIQL: Projective Implicit Q-Learning with Support Constraint for Offline Reinforcement Learning

翻译：PIQL：具有支撑约束的投影隐式Q学习用于离线强化学习

Xinchen Han,Hossam Afifi,Michel Marot

Offline Reinforcement Learning (RL) faces a fundamental challenge of extrapolation errors caused by out-of-distribution (OOD) actions. Implicit Q-Learning (IQL) employs expectile regression to achieve in-sample learning. Nevertheless, IQL relies on a fixed expectile hyperparameter and a density-based policy improvement method, both of which impede its adaptability and performance. In this paper, we propose Projective IQL (PIQL), a projective variant of IQL enhanced with a support constraint. In the policy evaluation stage, PIQL substitutes the fixed expectile hyperparameter with a projection-based parameter and extends the one-step value estimation to a multi-step formulation. In the policy improvement stage, PIQL adopts a support constraint instead of a density constraint, ensuring closer alignment with the policy evaluation. Theoretically, we demonstrate that PIQL maintains the expectile regression and in-sample learning framework, guarantees monotonic policy improvement, and introduces a progressively more rigorous criterion for advantageous actions. Experiments on D4RL and NeoRL2 benchmarks demonstrate robust gains across diverse domains, achieving state-of-the-art performance overall.

翻译：离线强化学习面临由分布外动作引起的泛化误差这一根本性挑战。隐式Q学习采用期望回归实现样本内学习。然而，IQL依赖于固定的期望分位数超参数和基于密度的策略改进方法，这两者均限制了其适应性与性能。本文提出投影隐式Q学习，这是一种通过支撑约束增强的IQL投影变体。在策略评估阶段，PIQL将固定的期望分位数超参数替换为基于投影的参数，并将单步价值估计扩展为多步形式。在策略改进阶段，PIQL采用支撑约束替代密度约束，确保与策略评估更紧密对齐。理论上，我们证明PIQL保持了期望回归与样本内学习框架，保证了策略的单调改进，并为优势动作引入了逐步更严格的判定准则。在D4RL和NeoRL2基准测试上的实验表明，该方法在多个领域均取得显著性能提升，整体达到最先进的性能水平。

0

相关内容

【普林斯顿博士论文】深度学习优化的隐性偏差：数学考察，391页pdf

【普林斯顿博士论文】深度学习优化的隐性偏差：数学考察，391页pdf

专知会员服务

29+阅读 · 2024年10月4日

基于表征学习的离线强化学习方法研究综述

基于表征学习的离线强化学习方法研究综述

专知会员服务

29+阅读 · 2024年7月2日

《用于水下目标定位的平台便携式强化学习方法》

《用于水下目标定位的平台便携式强化学习方法》

专知会员服务

27+阅读 · 2024年1月2日

【NeurIPS2023】基于反事实保守Q学习的离线多智能体强化学习

【NeurIPS2023】基于反事实保守Q学习的离线多智能体强化学习

专知会员服务

17+阅读 · 2023年9月25日

【伯克利博士论文】基于静态数据集的强化学习：算法、分析与应用, 386页pdf

【伯克利博士论文】基于静态数据集的强化学习：算法、分析与应用, 386页pdf

专知会员服务

55+阅读 · 2023年8月12日

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

专知会员服务

24+阅读 · 2022年3月19日

【Facebook】强化学习中的探索与利用，Matteo Pirotta讲解，137页ppt

专知会员服务

39+阅读 · 2021年4月8日

【AAAI2021】自校正Q学习，Self-correcting Q-Learning

专知会员服务

17+阅读 · 2020年12月4日

可解释强化学习，Explainable Reinforcement Learning: A Survey

可解释强化学习，Explainable Reinforcement Learning: A Survey

专知会员服务

132+阅读 · 2020年5月14日

【AAAI2020教程】强化学习中的Exploration-Exploitation in Reinforcement Learning

专知会员服务

101+阅读 · 2020年2月8日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

强化学习开篇：Q-Learning原理详解

强化学习开篇：Q-Learning原理详解

AINLP

37+阅读 · 2020年7月28日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

强化学习扫盲贴：从Q-learning到DQN

强化学习扫盲贴：从Q-learning到DQN

夕小瑶的卖萌屋

52+阅读 · 2019年10月13日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

入门 | 通过 Q-learning 深入理解强化学习

入门 | 通过 Q-learning 深入理解强化学习

机器之心

12+阅读 · 2018年4月17日

入门 | 从Q学习到DDPG，一文简述多种强化学习算法

入门 | 从Q学习到DDPG，一文简述多种强化学习算法

机器之心

17+阅读 · 2018年1月21日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

40+阅读 · 2015年12月31日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

23+阅读 · 2015年12月31日

基于迁移学习的图像隐写分析新方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于个体分析的投影式非线性非负张量分解在高维非结构化数据模式分析中的研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

QuantFL: Sustainable Federated Learning for Edge IoT via Pre-Trained Model Quantisation

QuantFL: Sustainable Federated Learning for Edge IoT via Pre-Trained Model Quantisation

Arxiv

0+阅读 · 3月18日

Adaptive $Q$-Aid for Conditional Supervised Learning in Offline Reinforcement Learning

Adaptive $Q$-Aid for Conditional Supervised Learning in Offline Reinforcement Learning

Arxiv

0+阅读 · 3月13日

Active Advantage-Aligned Online Reinforcement Learning with Offline Data

Arxiv

0+阅读 · 3月7日

Uncertainty-Aware Rank-One MIMO Q Network Framework for Accelerated Offline Reinforcement Learning

Arxiv

0+阅读 · 2月23日

QuRL: Efficient Reinforcement Learning with Quantized Rollout

Arxiv

0+阅读 · 2月15日

Optimistic Training and Convergence of Q-Learning -- Extended Version

Arxiv

0+阅读 · 2月5日

ReFORM: Reflected Flows for On-support Offline RL via Noise Manipulation

Arxiv

0+阅读 · 2月4日

Q-ShiftDP: A Differentially Private Parameter-Shift Rule for Quantum Machine Learning

Arxiv

0+阅读 · 2月3日

FORLER: Federated Offline Reinforcement Learning with Q-Ensemble and Actor Rectification

Arxiv

0+阅读 · 2月2日

Offline Goal-Conditioned Reinforcement Learning with Projective Quasimetric Planning

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

离线强化学习

最新内容

2025年大语言模型进展报告

2025年大语言模型进展报告

专知会员服务

10+阅读 · 4月25日

多智能体协作机制

多智能体协作机制

专知会员服务

10+阅读 · 4月25日

非对称优势：美海军开发低成本反无人机技术

非对称优势：美海军开发低成本反无人机技术

专知会员服务

9+阅读 · 4月25日

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

专知会员服务

19+阅读 · 4月25日

《美战争部小企业创新研究（SBIR）计划》

《美战争部小企业创新研究（SBIR）计划》

专知会员服务

8+阅读 · 4月25日

《军事模拟：将军事条令与目标融入AI智能体》

《军事模拟：将军事条令与目标融入AI智能体》

专知会员服务

12+阅读 · 4月25日

【NTU博士论文】3D人体动作生成

【NTU博士论文】3D人体动作生成

专知会员服务

9+阅读 · 4月24日

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

专知会员服务

13+阅读 · 4月24日

以色列军事技术对美国军力发展的持续性赋能

以色列军事技术对美国军力发展的持续性赋能

专知会员服务

9+阅读 · 4月24日

战场之外的较量：美伊冲突中的认知战与心理博弈

战场之外的较量：美伊冲突中的认知战与心理博弈

专知会员服务

7+阅读 · 4月24日

俄乌战争中乌克兰防空能力演变与见解（中文版）

俄乌战争中乌克兰防空能力演变与见解（中文版）

专知会员服务

8+阅读 · 4月24日

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

专知会员服务

11+阅读 · 4月24日

《深度强化学习在兵棋推演中的应用》40页报告

《深度强化学习在兵棋推演中的应用》40页报告

专知会员服务

16+阅读 · 4月24日

《多域作战面临复杂现实》

《多域作战面临复杂现实》

专知会员服务

13+阅读 · 4月24日

《印度的多域作战：条令与能力发展》报告

《印度的多域作战：条令与能力发展》报告

专知会员服务

6+阅读 · 4月24日

相关VIP内容

【普林斯顿博士论文】深度学习优化的隐性偏差：数学考察，391页pdf

【普林斯顿博士论文】深度学习优化的隐性偏差：数学考察，391页pdf

专知会员服务

29+阅读 · 2024年10月4日

基于表征学习的离线强化学习方法研究综述

基于表征学习的离线强化学习方法研究综述

专知会员服务

29+阅读 · 2024年7月2日

《用于水下目标定位的平台便携式强化学习方法》

《用于水下目标定位的平台便携式强化学习方法》

专知会员服务

27+阅读 · 2024年1月2日

【NeurIPS2023】基于反事实保守Q学习的离线多智能体强化学习

【NeurIPS2023】基于反事实保守Q学习的离线多智能体强化学习

专知会员服务

17+阅读 · 2023年9月25日

【伯克利博士论文】基于静态数据集的强化学习：算法、分析与应用, 386页pdf

【伯克利博士论文】基于静态数据集的强化学习：算法、分析与应用, 386页pdf

专知会员服务

55+阅读 · 2023年8月12日

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

专知会员服务

24+阅读 · 2022年3月19日

【Facebook】强化学习中的探索与利用，Matteo Pirotta讲解，137页ppt

专知会员服务

39+阅读 · 2021年4月8日

【AAAI2021】自校正Q学习，Self-correcting Q-Learning

专知会员服务

17+阅读 · 2020年12月4日

可解释强化学习，Explainable Reinforcement Learning: A Survey

可解释强化学习，Explainable Reinforcement Learning: A Survey

专知会员服务

132+阅读 · 2020年5月14日

【AAAI2020教程】强化学习中的Exploration-Exploitation in Reinforcement Learning

专知会员服务

101+阅读 · 2020年2月8日

热门VIP内容

开通专知VIP会员享更多权益服务

多智能体协作机制

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

2025年大语言模型进展报告

非对称优势：美海军开发低成本反无人机技术

相关资讯

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

强化学习开篇：Q-Learning原理详解

强化学习开篇：Q-Learning原理详解

AINLP

37+阅读 · 2020年7月28日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

强化学习扫盲贴：从Q-learning到DQN

强化学习扫盲贴：从Q-learning到DQN

夕小瑶的卖萌屋

52+阅读 · 2019年10月13日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

入门 | 通过 Q-learning 深入理解强化学习

入门 | 通过 Q-learning 深入理解强化学习

机器之心

12+阅读 · 2018年4月17日

入门 | 从Q学习到DDPG，一文简述多种强化学习算法

入门 | 从Q学习到DDPG，一文简述多种强化学习算法

机器之心

17+阅读 · 2018年1月21日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

QuantFL: Sustainable Federated Learning for Edge IoT via Pre-Trained Model Quantisation

QuantFL: Sustainable Federated Learning for Edge IoT via Pre-Trained Model Quantisation

Arxiv

0+阅读 · 3月18日

Adaptive $Q$-Aid for Conditional Supervised Learning in Offline Reinforcement Learning

Adaptive $Q$-Aid for Conditional Supervised Learning in Offline Reinforcement Learning

Arxiv

0+阅读 · 3月13日

Active Advantage-Aligned Online Reinforcement Learning with Offline Data

Arxiv

0+阅读 · 3月7日

Uncertainty-Aware Rank-One MIMO Q Network Framework for Accelerated Offline Reinforcement Learning

Arxiv

0+阅读 · 2月23日

QuRL: Efficient Reinforcement Learning with Quantized Rollout

Arxiv

0+阅读 · 2月15日

Optimistic Training and Convergence of Q-Learning -- Extended Version

Arxiv

0+阅读 · 2月5日

ReFORM: Reflected Flows for On-support Offline RL via Noise Manipulation

Arxiv

0+阅读 · 2月4日

Q-ShiftDP: A Differentially Private Parameter-Shift Rule for Quantum Machine Learning

Arxiv

0+阅读 · 2月3日

FORLER: Federated Offline Reinforcement Learning with Q-Ensemble and Actor Rectification

Arxiv

0+阅读 · 2月2日

Offline Goal-Conditioned Reinforcement Learning with Projective Quasimetric Planning

Arxiv

0+阅读 · 1月30日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

40+阅读 · 2015年12月31日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

23+阅读 · 2015年12月31日

基于迁移学习的图像隐写分析新方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于个体分析的投影式非线性非负张量分解在高维非结构化数据模式分析中的研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员