We propose Q-learning with Adjoint Matching (QAM), a novel TD-based reinforcement learning (RL) algorithm that tackles a long-standing challenge in continuous-action RL: efficient optimization of an expressive diffusion or flow-matching policy with respect to a parameterized Q-function. Effective optimization requires exploiting the first-order information of the critic, but it is challenging to do so for flow or diffusion policies because direct gradient-based optimization via backpropagation through their multi-step denoising process is numerically unstable. Existing methods work around this either by only using the value and discarding the gradient information, or by relying on approximations that sacrifice policy expressivity or bias the learned policy. QAM sidesteps both of these challenges by leveraging adjoint matching, a recently proposed technique in generative modeling, which transforms the critic's action gradient to form a step-wise objective function that is free from unstable backpropagation, while providing an unbiased, expressive policy at the optimum. Combined with temporal-difference backup for critic learning, QAM consistently outperforms prior approaches on hard, sparse reward tasks in both offline and offline-to-online RL.


翻译:我们提出了一种新颖的基于时序差分(TD)的强化学习算法——基于伴随匹配的Q学习(QAM),该算法解决了连续动作强化学习中一个长期存在的挑战:如何高效地优化一个表达能力强的扩散或流匹配策略,使其与参数化的Q函数相匹配。有效的优化需要利用评论家的一阶信息,但对于流或扩散策略而言,这具有挑战性,因为通过其多步去噪过程进行基于梯度的直接反向传播优化在数值上是不稳定的。现有方法通过仅使用价值信息而丢弃梯度信息,或依赖牺牲策略表达能力或使学习策略产生偏差的近似方法,来规避这一挑战。QAM通过利用伴随匹配(生成建模中最近提出的一种技术)绕过了这两个挑战。该技术将评论家的动作梯度进行变换,形成一个步进式的目标函数,该函数避免了不稳定的反向传播,同时在最优解处提供无偏且表达能力强的策略。结合用于评论家学习的时序差分备份,QAM在离线和离线到在线强化学习的困难、稀疏奖励任务上,始终优于先前的方法。

0
下载
关闭预览

相关内容

梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。
专知会员服务
17+阅读 · 2020年12月4日
强化学习开篇:Q-Learning原理详解
AINLP
37+阅读 · 2020年7月28日
元强化学习迎来一盆冷水:不比元Q学习好多少
AI科技评论
12+阅读 · 2020年2月27日
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
【论文笔记】基于强化学习的人机对话
专知
20+阅读 · 2019年9月21日
入门 | 通过 Q-learning 深入理解强化学习
机器之心
12+阅读 · 2018年4月17日
一个强化学习 Q-learning 算法的简明教程
数据挖掘入门与实战
10+阅读 · 2018年3月18日
入门 | 从Q学习到DDPG,一文简述多种强化学习算法
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2月6日
Arxiv
0+阅读 · 2月3日
VIP会员
相关VIP内容
专知会员服务
17+阅读 · 2020年12月4日
相关资讯
强化学习开篇:Q-Learning原理详解
AINLP
37+阅读 · 2020年7月28日
元强化学习迎来一盆冷水:不比元Q学习好多少
AI科技评论
12+阅读 · 2020年2月27日
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
【论文笔记】基于强化学习的人机对话
专知
20+阅读 · 2019年9月21日
入门 | 通过 Q-learning 深入理解强化学习
机器之心
12+阅读 · 2018年4月17日
一个强化学习 Q-learning 算法的简明教程
数据挖掘入门与实战
10+阅读 · 2018年3月18日
入门 | 从Q学习到DDPG,一文简述多种强化学习算法
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员