Diffusion and flow models achieve State-Of-The-Art (SOTA) generative performance, yet many practically important behaviors such as fine-grained prompt fidelity, compositional correctness, and text rendering are weakly specified by score or flow matching pretraining objectives. Reinforcement Learning (RL) fine-tuning with external, black-box rewards is a natural remedy, but diffusion RL is often brittle. Trajectory-based methods incur high memory cost and high-variance gradient estimates; forward-process approaches converge faster but can suffer from distribution drift, and hence reward hacking. In this work, we present \textbf{Centered Reward Distillation (CRD)}, a diffusion RL framework derived from KL-regularized reward maximization built on forward-process-based fine-tuning. The key insight is that the intractable normalizing constant cancels under \emph{within-prompt centering}, yielding a well-posed reward-matching objective. To enable reliable text-to-image fine-tuning, we introduce techniques that explicitly control distribution drift: (\textit{i}) decoupling the sampler from the moving reference to prevent ratio-signal collapse, (\textit{ii}) KL anchoring to a CFG-guided pretrained model to control long-run drift and align with the inference-time semantics of the pre-trained model, and (\textit{iii}) reward-adaptive KL strength to accelerate early learning under large KL regularization while reducing late-stage exploitation of reward-model loopholes. Experiments on text-to-image post-training with \texttt{GenEval} and \texttt{OCR} rewards show that CRD achieves competitive SOTA reward optimization results with fast convergence and reduced reward hacking, as validated on unseen preference metrics.


翻译:扩散模型与流模型实现了最先进的生成性能,然而许多实际重要的行为——如细粒度提示保真度、组合正确性和文本渲染——通过分数匹配或流匹配预训练目标仅得到弱约束。利用外部黑盒奖励进行强化学习微调是一种自然的补救方案,但扩散强化学习往往较为脆弱。基于轨迹的方法内存成本高且梯度估计方差大;基于前向过程的方法收敛更快,但可能遭受分布漂移,进而导致奖励黑客行为。本文提出**中心化奖励蒸馏(CRD)**,这是一个基于前向过程微调、从KL正则化奖励最大化推导出的扩散强化学习框架。其核心洞见在于:在**提示内中心化**操作下,难以处理的归一化常数会被抵消,从而得到一个良定义的奖励匹配目标。为实现可靠的文本到图像微调,我们引入了显式控制分布漂移的技术:(i)将采样器与移动参考解耦,以防止比率信号崩溃;(ii)通过KL锚定到CFG引导的预训练模型,以控制长期漂移并与预训练模型在推理时的语义对齐;(iii)采用奖励自适应的KL强度,以在强KL正则化下加速早期学习,同时减少后期对奖励模型漏洞的利用。在基于`GenEval`和`OCR`奖励的文本到图像后训练实验中,CRD在未见过的偏好指标上验证了其能以快速收敛和减少奖励黑客的方式,达到具有竞争力的最先进奖励优化结果。

0
下载
关闭预览

相关内容

用于强化学习的扩散模型:基础、分类与发展
专知会员服务
23+阅读 · 2025年10月15日
深度强化学习中的奖励模型:综述
专知会员服务
29+阅读 · 2025年6月20日
面向强化学习的可解释性研究综述
专知会员服务
44+阅读 · 2024年7月30日
基于强化学习的扩散模型微调:教程与综述
专知会员服务
44+阅读 · 2024年7月20日
【CVPR2024】扩散模型的结构指导对抗训练
专知会员服务
27+阅读 · 2024年2月28日
基于模型的强化学习综述
专知会员服务
149+阅读 · 2022年7月13日
【微信@CIKM2021 】 强化学习推荐模型的知识蒸馏探索之路
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
19+阅读 · 2020年9月1日
一文了解强化学习
AI100
15+阅读 · 2018年8月20日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
关于强化学习(附代码,练习和解答)
深度学习
38+阅读 · 2018年1月30日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Arxiv
22+阅读 · 2023年11月2日
VIP会员
最新内容
《图世界模型:概念、分类体系与未来方向》
专知会员服务
8+阅读 · 5月1日
Palantir AIP平台:连接智能体与决策
专知会员服务
15+阅读 · 5月1日
《美海军软件测试战略》90页slides
专知会员服务
11+阅读 · 5月1日
面向具身智能与机器人仿真的三维生成:综述
专知会员服务
11+阅读 · 4月30日
相关VIP内容
用于强化学习的扩散模型:基础、分类与发展
专知会员服务
23+阅读 · 2025年10月15日
深度强化学习中的奖励模型:综述
专知会员服务
29+阅读 · 2025年6月20日
面向强化学习的可解释性研究综述
专知会员服务
44+阅读 · 2024年7月30日
基于强化学习的扩散模型微调:教程与综述
专知会员服务
44+阅读 · 2024年7月20日
【CVPR2024】扩散模型的结构指导对抗训练
专知会员服务
27+阅读 · 2024年2月28日
基于模型的强化学习综述
专知会员服务
149+阅读 · 2022年7月13日
【微信@CIKM2021 】 强化学习推荐模型的知识蒸馏探索之路
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员