Subject-driven image generation models face a fundamental trade-off between identity preservation (fidelity) and prompt adherence (editability). While online reinforcement learning (RL), specifically GPRO, offers a promising solution, we find that a naive application of GRPO leads to competitive degradation, as the simple linear aggregation of rewards with static weights causes conflicting gradient signals and a misalignment with the temporal dynamics of the diffusion process. To overcome these limitations, we propose Customized-GRPO, a novel framework featuring two key innovations: (i) Synergy-Aware Reward Shaping (SARS), a non-linear mechanism that explicitly penalizes conflicted reward signals and amplifies synergistic ones, providing a sharper and more decisive gradient. (ii) Time-Aware Dynamic Weighting (TDW), which aligns the optimization pressure with the model's temporal dynamics by prioritizing prompt-following in the early, identity preservation in the later. Extensive experiments demonstrate that our method significantly outperforms naive GRPO baselines, successfully mitigating competitive degradation. Our model achieves a superior balance, generating images that both preserve key identity features and accurately adhere to complex textual prompts.


翻译:主题驱动图像生成模型在身份保持(保真度)与提示遵循(可编辑性)之间存在根本性权衡。尽管在线强化学习(特别是GPRO方法)提供了有前景的解决方案,但我们发现朴素应用GRPO会导致竞争性退化——由于静态权重的简单线性奖励聚合会产生冲突梯度信号,并与扩散过程的时间动态特性错位。为克服这些局限,我们提出Customized-GRPO框架,其包含两项关键创新:(i)协同感知奖励塑形(SARS),一种显式惩罚冲突奖励信号并放大协同信号的非线性机制,提供更锐利且更明确的梯度;(ii)时间感知动态加权(TDW),通过优先化早期阶段的提示遵循与后期阶段的身份保持,将优化压力与模型时间动态特性对齐。大量实验表明,我们的方法显著优于朴素GRPO基线,成功缓解了竞争性退化。该模型实现了优越的平衡,既能生成保留关键身份特征的图像,又能精准遵循复杂文本提示。

0
下载
关闭预览

相关内容

深度强化学习与模仿学习导论
专知会员服务
25+阅读 · 2025年12月10日
《图强化学习在组合优化中的应用》综述
专知会员服务
60+阅读 · 2024年4月10日
基于主动学习的图像分类技术:现状与未来
专知会员服务
37+阅读 · 2024年1月8日
基于模型的强化学习综述
专知会员服务
48+阅读 · 2023年1月9日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
深度学习时代的图模型,清华发文综述图网络
GAN生成式对抗网络
13+阅读 · 2018年12月23日
展望:模型驱动的深度学习
人工智能学家
12+阅读 · 2018年1月23日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
6+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
深度强化学习与模仿学习导论
专知会员服务
25+阅读 · 2025年12月10日
《图强化学习在组合优化中的应用》综述
专知会员服务
60+阅读 · 2024年4月10日
基于主动学习的图像分类技术:现状与未来
专知会员服务
37+阅读 · 2024年1月8日
基于模型的强化学习综述
专知会员服务
48+阅读 · 2023年1月9日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员