Recent advancements adopt online reinforcement learning (RL) from LLMs to text-to-image rectified flow diffusion models for reward alignment. The use of group-level rewards successfully aligns the model with the targeted reward. However, it faces challenges including low efficiency, dependency on stochastic samplers, and reward hacking. The problem is that rectified flow models are fundamentally different from LLMs: 1) For efficiency, online image sampling takes much more time and dominates the time of training. 2) For stochasticity, rectified flow is deterministic once the initial noise is fixed. Aiming at these problems and inspired by the effects of group-level rewards from LLMs, we design Group-level Direct Reward Optimization (GDRO). GDRO is a new post-training paradigm for group-level reward alignment that combines the characteristics of rectified flow models. Through rigorous theoretical analysis, we point out that GDRO supports full offline training that saves the large time cost for image rollout sampling. Also, it is diffusion-sampler-independent, which eliminates the need for the ODE-to-SDE approximation to obtain stochasticity. We also empirically study the reward hacking trap that may mislead the evaluation, and involve this factor in the evaluation using a corrected score that not only considers the original evaluation reward but also the trend of reward hacking. Extensive experiments demonstrate that GDRO effectively and efficiently improves the reward score of the diffusion model through group-wise offline optimization across the OCR and GenEval tasks, while demonstrating strong stability and robustness in mitigating reward hacking.


翻译:近期研究将大型语言模型中的在线强化学习方法应用于文本到图像的整流流扩散模型,以实现奖励对齐。群体级奖励的使用成功地将模型与目标奖励对齐,但该方法面临效率低下、依赖随机采样器以及奖励黑客攻击等挑战。问题的根源在于整流流模型与大型语言模型存在本质差异:1)在效率方面,在线图像采样耗时显著,主导了训练时间。2)在随机性方面,一旦初始噪声固定,整流流具有确定性。针对这些问题,并受大型语言模型中群体级奖励效果的启发,我们设计了群体级直接奖励优化方法。该方法是一种结合整流流模型特性的新型群体级奖励对齐后训练范式。通过严格的理论分析,我们指出该方法支持完全离线训练,从而节省了图像采样所需的大量时间成本。同时,该方法独立于扩散采样器,无需通过常微分方程到随机微分方程的近似来获取随机性。我们还通过实证研究分析了可能误导评估的奖励黑客陷阱,并在评估中引入校正分数以纳入该因素,该分数不仅考虑原始评估奖励,还兼顾奖励黑客攻击的趋势。大量实验表明,该方法通过跨OCR和GenEval任务的群体级离线优化,有效且高效地提升了扩散模型的奖励分数,同时在缓解奖励黑客攻击方面展现出强大的稳定性和鲁棒性。

0
下载
关闭预览

相关内容

黑客(Hacker,台湾译作「骇客」)广义上指在计算机科学,编程以及设计领域有高度理解力的人。 然而,人们通常对黑客一词的理解都是取其狭义的涵义,即信息安全领域的黑客: 未经许可入侵他人系统并窃取数据信息等的可以视为 黑帽黑客,也可取侩客 cracker 的涵义。
而主要从事安全检测,系统调试,技术研究的安全从业者可称为 白帽黑客
还有一种存在称为「脚本小子」,往往冒充黑客也常被人误认为是「黑客」,其实是利用一些现有的工具或者程序达到入侵或破解等目的,然而其知识储备以及对技术的理解力却完全不符合广义黑客的标准,甚至不及狭义黑客标准。
【ICML2023】SEGA:结构熵引导的图对比学习锚视图
专知会员服务
23+阅读 · 2023年5月10日
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
论文浅尝 | GMNN: Graph Markov Neural Networks
开放知识图谱
20+阅读 · 2020年2月14日
【NeurIPS2019】图变换网络:Graph Transformer Network
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
论文浅尝 | GMNN: Graph Markov Neural Networks
开放知识图谱
20+阅读 · 2020年2月14日
【NeurIPS2019】图变换网络:Graph Transformer Network
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员