Offline reinforcement learning (RL) has progressed with return-conditioned supervised learning (RCSL), but its lack of stitching ability remains a limitation. We introduce $Q$-Aided Conditional Supervised Learning (QCS), which effectively combines the stability of RCSL with the stitching capability of $Q$-functions. By analyzing $Q$-function over-generalization, which impairs stable stitching, QCS adaptively integrates $Q$-aid into RCSL's loss function based on trajectory return. Empirical results show that QCS significantly outperforms RCSL and value-based methods, consistently achieving or exceeding the maximum trajectory returns across diverse offline RL benchmarks.


翻译:离线强化学习(RL)在基于回报的条件监督学习(RCSL)的推动下取得了进展,但其缺乏拼接能力仍然是一个局限。我们提出了Q值辅助的条件监督学习(QCS),该方法有效地将RCSL的稳定性与Q函数的拼接能力相结合。通过分析损害稳定拼接的Q函数过度泛化问题,QCS根据轨迹回报自适应地将Q值辅助整合到RCSL的损失函数中。实证结果表明,QCS在多种离线RL基准测试中显著优于RCSL和基于价值的方法,持续达到或超过最大轨迹回报。

0
下载
关闭预览

相关内容

基于表征学习的离线强化学习方法研究综述
专知会员服务
29+阅读 · 2024年7月2日
基于人工反馈的强化学习综述
专知会员服务
65+阅读 · 2023年12月25日
【ICML2023】面向决策Transformer的未来条件无监督预训练
专知会员服务
44+阅读 · 2023年5月30日
【牛津大学博士论文】元强化学习的快速自适应,217页pdf
专知会员服务
106+阅读 · 2022年9月19日
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
强化学习开篇:Q-Learning原理详解
AINLP
37+阅读 · 2020年7月28日
入门 | 通过 Q-learning 深入理解强化学习
机器之心
12+阅读 · 2018年4月17日
关于强化学习(附代码,练习和解答)
深度学习
37+阅读 · 2018年1月30日
入门 | 从Q学习到DDPG,一文简述多种强化学习算法
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
VIP会员
相关资讯
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
强化学习开篇:Q-Learning原理详解
AINLP
37+阅读 · 2020年7月28日
入门 | 通过 Q-learning 深入理解强化学习
机器之心
12+阅读 · 2018年4月17日
关于强化学习(附代码,练习和解答)
深度学习
37+阅读 · 2018年1月30日
入门 | 从Q学习到DDPG,一文简述多种强化学习算法
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员