Off-policy reinforcement learning of pretrained flow policies remains challenging due to the instability of optimization arising from the multi-step sampling process. Recently, Q-learning with Adjoint Matching (QAM) addressed this issue by reformulating into a memoryless stochastic optimal control (SOC) problem with a learned critic. However, QAM inherits a fundamental fragility of critic-guided improvement: small critic errors are amplified when critics are ill-conditioned, often leading to model collapse. This paper introduces Trust Region Q-Adjoint Matching (TRQAM), a stable off-policy fine-tuning algorithm that adaptively controls the path-space KL with pretrained flow policies through projected dual descent. Specifically, we optimize the trust-region parameter $λ$ in SOC dynamics, and theoretically show that the path-space KL can be represented by a closed-form function of $λ$. As a result, our method can precisely control the exact deviation from pretrained flow policies, achieving stable off-policy RL. Through experiments on 50 OGBench tasks, TRQAM consistently outperforms prior arts in both offline RL and offline-to-online RL. In particular, TRQAM achieves an overall success rate of 68% in offline RL, substantially improves the strongest baseline at 46%.


翻译:离线策略强化学习在预训练流策略上仍面临挑战,这源于多步采样过程中的优化不稳定性。近期提出的Q学习伴随匹配(QAM)通过将问题重构为具有学习评论器(critic)的无记忆随机最优控制(SOC)问题来解决这一难题。然而,QAM继承了评论器引导改进的根本脆弱性:当评论器条件不佳时,微小的评论器误差会被放大,常导致模型崩溃。本文提出了一种稳定的离线策略微调算法——信任区域Q伴随匹配(TRQAM),该算法通过投影对偶下降自适应地控制预训练流策略的路径空间KL散度。具体而言,我们在SOC动力学中优化信任区域参数λ,并从理论上证明路径空间KL散度可由λ的闭式函数表示。因此,我们的方法能够精确控制与预训练流策略的精确偏差,实现稳定的离线策略RL。通过在50个OGBench任务上的实验,TRQAM在离线RL和离线到在线RL场景中均持续优于现有方法。特别地,TRQAM在离线RL中实现了68%的整体成功率,显著提升了最强基线方法46%的表现。

0
下载
关闭预览

相关内容

【ICML2025】组合优化问题中的偏好优化
专知会员服务
12+阅读 · 2025年5月17日
多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
专知会员服务
17+阅读 · 2020年12月4日
搜索query意图识别的演进
DataFunTalk
13+阅读 · 2020年11月15日
强化学习开篇:Q-Learning原理详解
AINLP
37+阅读 · 2020年7月28日
元强化学习迎来一盆冷水:不比元Q学习好多少
AI科技评论
12+阅读 · 2020年2月27日
入门 | 从Q学习到DDPG,一文简述多种强化学习算法
一文读懂「Attention is All You Need」| 附代码实现
PaperWeekly
37+阅读 · 2018年1月10日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
YesOfCourse团队在Kaggle文本匹配竞赛中获得优异成绩
中国科学院网络数据重点实验室
10+阅读 · 2017年6月15日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月16日
Arxiv
0+阅读 · 5月13日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关资讯
搜索query意图识别的演进
DataFunTalk
13+阅读 · 2020年11月15日
强化学习开篇:Q-Learning原理详解
AINLP
37+阅读 · 2020年7月28日
元强化学习迎来一盆冷水:不比元Q学习好多少
AI科技评论
12+阅读 · 2020年2月27日
入门 | 从Q学习到DDPG,一文简述多种强化学习算法
一文读懂「Attention is All You Need」| 附代码实现
PaperWeekly
37+阅读 · 2018年1月10日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
YesOfCourse团队在Kaggle文本匹配竞赛中获得优异成绩
中国科学院网络数据重点实验室
10+阅读 · 2017年6月15日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员