Offline Reinforcement Learning (RL) relies on policy constraints to mitigate extrapolation error, where both the constraint form and constraint strength critically shape performance. However, most existing methods commit to a single constraint family: weighted behavior cloning, density regularization, or support constraints, without a unified principle that explains their connections or trade-offs. In this work, we propose Continuous Constraint Interpolation (CCI), a unified optimization framework in which these three constraint families arise as special cases along a common constraint spectrum. The CCI framework introduces a single interpolation parameter that enables smooth transitions and principled combinations across constraint types. Building on CCI, we develop Automatic Constraint Policy Optimization (ACPO), a practical primal--dual algorithm that adapts the interpolation parameter via a Lagrangian dual update. Moreover, we establish a maximum-entropy performance difference lemma and derive performance lower bounds for both the closed-form optimal policy and its parametric projection. Experiments on D4RL and NeoRL2 demonstrate robust gains across diverse domains, achieving state-of-the-art performance overall.


翻译:离线强化学习(RL)依赖于策略约束来减轻外推误差,其中约束形式和约束强度对性能具有关键影响。然而,现有方法大多局限于单一约束族:加权行为克隆、密度正则化或支撑约束,缺乏一个统一的原则来解释它们之间的联系与权衡。本文提出连续约束插值(CCI),这是一个统一的优化框架,其中上述三种约束族作为特例出现在一个共同的约束谱上。CCI框架引入了一个单一的插值参数,能够在不同约束类型之间实现平滑过渡和原则性组合。基于CCI,我们开发了自动约束策略优化(ACPO),这是一种实用的原对偶算法,通过拉格朗日对偶更新自适应调整插值参数。此外,我们建立了最大熵性能差异引理,并推导了闭式最优策略及其参数化投影的性能下界。在D4RL和NeoRL2上的实验表明,该方法在不同领域均取得了稳健的性能提升,整体达到了最先进的性能水平。

0
下载
关闭预览

相关内容

因果强化学习的统一框架:综述、分类体系、算法与应用
专知会员服务
34+阅读 · 2025年12月24日
持续强化学习研究综述
专知会员服务
41+阅读 · 2025年6月30日
基于表征学习的离线强化学习方法研究综述
专知会员服务
29+阅读 · 2024年7月2日
基于模型的强化学习综述
专知会员服务
149+阅读 · 2022年7月13日
专知会员服务
33+阅读 · 2021年9月7日
【Texas 大学】强化学习领域的课程学习:一个框架和综述
专知会员服务
73+阅读 · 2020年3月22日
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【MIT博士论文】数据高效强化学习,176页pdf
关于强化学习(附代码,练习和解答)
深度学习
37+阅读 · 2018年1月30日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
VIP会员
相关VIP内容
因果强化学习的统一框架:综述、分类体系、算法与应用
专知会员服务
34+阅读 · 2025年12月24日
持续强化学习研究综述
专知会员服务
41+阅读 · 2025年6月30日
基于表征学习的离线强化学习方法研究综述
专知会员服务
29+阅读 · 2024年7月2日
基于模型的强化学习综述
专知会员服务
149+阅读 · 2022年7月13日
专知会员服务
33+阅读 · 2021年9月7日
【Texas 大学】强化学习领域的课程学习:一个框架和综述
专知会员服务
73+阅读 · 2020年3月22日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员