Online reinforcement learning (RL) has been central to post-training language models, but its extension to diffusion models remains challenging due to intractable likelihoods. Recent works discretize the reverse sampling process to enable GRPO-style training, yet they inherit fundamental drawbacks, including solver restrictions, forward-reverse inconsistency, and complicated integration with classifier-free guidance (CFG). We introduce Diffusion Negative-aware FineTuning (DiffusionNFT), a new online RL paradigm that optimizes diffusion models directly on the forward process via flow matching. DiffusionNFT contrasts positive and negative generations to define an implicit policy improvement direction, naturally incorporating reinforcement signals into the supervised learning objective. This formulation enables training with arbitrary black-box solvers, eliminates the need for likelihood estimation, and requires only clean images rather than sampling trajectories for policy optimization. DiffusionNFT is up to $25\times$ more efficient than FlowGRPO in head-to-head comparisons, while being CFG-free. For instance, DiffusionNFT improves the GenEval score from 0.24 to 0.98 within 1k steps, while FlowGRPO achieves 0.95 with over 5k steps and additional CFG employment. By leveraging multiple reward models, DiffusionNFT significantly boosts the performance of SD3.5-Medium in every benchmark tested.


翻译:在线强化学习(RL)已成为语言模型后训练的核心方法,但其向扩散模型的扩展因似然函数难以处理而面临挑战。近期研究通过离散化反向采样过程以实现GRPO风格训练,但这些方法仍存在固有缺陷,包括求解器限制、前向-反向过程不一致性,以及与无分类器引导(CFG)的复杂集成。本文提出扩散负感知微调(DiffusionNFT),这是一种基于流匹配、直接在前向过程上优化扩散模型的新型在线RL范式。DiffusionNFT通过对比正负样本来定义隐式策略改进方向,将强化信号自然地融入监督学习目标。该范式支持使用任意黑盒求解器进行训练,无需进行似然估计,且策略优化仅需干净图像而非采样轨迹。在直接对比中,DiffusionNFT的效率比FlowGRPO提升高达$25\times$,同时无需CFG。例如,DiffusionNFT在1k步内将GenEval分数从0.24提升至0.98,而FlowGRPO需要超过5k步并额外使用CFG才能达到0.95。通过利用多个奖励模型,DiffusionNFT在各项基准测试中显著提升了SD3.5-Medium的性能。

0
下载
关闭预览

相关内容

面向软件工程的强化学习综述
专知会员服务
30+阅读 · 2025年7月21日
【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战,80页ppt
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【MIT博士论文】数据高效强化学习,176页pdf
综述| 当图神经网络遇上强化学习
图与推荐
35+阅读 · 2022年7月1日
关于强化学习(附代码,练习和解答)
深度学习
37+阅读 · 2018年1月30日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
VIP会员
相关VIP内容
面向软件工程的强化学习综述
专知会员服务
30+阅读 · 2025年7月21日
【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战,80页ppt
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员