Reward fine-tuning has become a common approach for aligning pretrained diffusion and flow models with human preferences in text-to-image generation. Among reward-gradient-based methods, Adjoint Matching (AM) provides a principled formulation by casting reward fine-tuning as a stochastic optimal control (SOC) problem. However, AM inevitably requires a substantial computational cost: it requires (i) stochastic simulation of full generative trajectories under memoryless dynamics, resulting in a large number of function evaluations, and (ii) backward ODE simulation of the adjoint state along each sampled trajectory. In this work, we observe that both bottlenecks are closely tied to the \textit{non-trivial base drift} inherited from the pretrained model. Motivated by this observation, we propose \textbf{Efficient Adjoint Matching (EAM)}, which substantially improves training efficiency by reformulating the SOC problem with a \textit{linear base drift} and a correspondingly modified \textit{terminal cost}. This reformulation removes both sources of inefficiency; it enables training-time sampling with a few-step deterministic ODE solver and yields a closed-form adjoint solution that eliminates backward adjoint simulation. On standard text-to-image reward fine-tuning benchmarks, EAM converges up to 4x faster than AM and matches or surpasses it across various metrics including PickScore, ImageReward, HPSv2.1, CLIPScore and Aesthetics.


翻译:奖励微调已成为将预训练扩散模型与流模型与文本到图像生成中的人类偏好对齐的常用方法。在基于奖励梯度的方法中,伴随匹配(AM)通过将奖励微调建模为随机最优控制(SOC)问题,提供了一种原则性框架。然而,AM不可避免地需要大量计算成本:它需要(i)在无记忆动力学下对完整生成轨迹进行随机模拟,导致大量函数评估次数,以及(ii)沿每条采样轨迹对伴随状态进行反向ODE模拟。在本工作中,我们观察到这两个瓶颈与预训练模型继承的\mathbf{非平凡基础漂移}密切相关。基于这一观察,我们提出\mathbf{高效伴随匹配(EAM)},该方法通过将SOC问题重新表述为具有\mathbf{线性基础漂移}和相应修改的\mathbf{终端代价}的形式,显著提升了训练效率。这一重新表述消除了两个低效来源:它能够在训练阶段使用几步确定性ODE求解器进行采样,并得到闭合形式的伴随解,从而省去反向伴随模拟。在标准文本到图像奖励微调基准测试中,EAM的收敛速度比AM快4倍,且在PickScore、ImageReward、HPSv2.1、CLIPScore和美学评分等各项指标上达到或超越AM的性能。

0
下载
关闭预览

相关内容

联邦学习中基础模型参数高效微调综述
专知会员服务
17+阅读 · 2025年5月5日
《面向基础模型的高效参数微调》综述
专知会员服务
34+阅读 · 2025年1月24日
基于强化学习的扩散模型微调:教程与综述
专知会员服务
44+阅读 · 2024年7月20日
预训练视觉模型的参数高效微调
专知会员服务
32+阅读 · 2024年3月19日
深度学习应用在图像匹配的效果如何?
中国图象图形学报
10+阅读 · 2019年6月11日
深度学习中Attention Mechanism详细介绍:原理、分类及应用
深度学习与NLP
10+阅读 · 2019年2月18日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月14日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
3+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员