Existing methods for preference tuning of text-to-image (T2I) diffusion models often rely on computationally expensive generation steps to create positive and negative pairs of images. These approaches frequently yield training pairs that either lack meaningful differences, are expensive to sample and filter, or exhibit significant variance in irrelevant pixel regions, thereby degrading training efficiency. To address these limitations, we introduce "Di3PO", a novel method for constructing positive and negative pairs that isolates specific regions targeted for improvement during preference tuning, while keeping the surrounding context in the image stable. We demonstrate the efficacy of our approach by applying it to the challenging task of text rendering in diffusion models, showcasing improvements over baseline methods of SFT and DPO.


翻译:现有针对文本到图像(T2I)扩散模型的偏好调优方法通常依赖于计算成本高昂的生成步骤来创建正负图像对。这些方法产生的训练对往往存在以下问题:要么缺乏有意义的差异,要么采样和筛选成本高昂,要么在无关像素区域表现出显著方差,从而降低了训练效率。为解决这些局限性,我们提出了"Di3PO"——一种构建正负图像对的新方法,该方法能在偏好调优过程中隔离出需要改进的特定区域,同时保持图像中周围背景的稳定。我们通过将该方法应用于扩散模型中极具挑战性的文本渲染任务,展示了其有效性,并证明了其在SFT和DPO基线方法基础上的改进。

0
下载
关闭预览

相关内容

IMAGINE-E:最先进文本到图像模型的图像生成智能评估
专知会员服务
13+阅读 · 2025年2月3日
《基于扩散模型的条件图像生成》综述
专知会员服务
44+阅读 · 2024年10月1日
《可信文本到图像扩散模型》最新综述
专知会员服务
27+阅读 · 2024年9月30日
【ICML2024】双曲几何潜在扩散模型用于图生成
专知会员服务
42+阅读 · 2024年5月8日
【CVPR2024】用于文本到图像生成的判别性探测和调整
专知会员服务
15+阅读 · 2024年3月11日
【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型
专知会员服务
30+阅读 · 2024年3月10日
【NeurIPS 2022】扩散模型的深度平衡方法
专知会员服务
40+阅读 · 2022年11月5日
【学界】基于条件深度卷积生成对抗网络的图像识别方法
GAN生成式对抗网络
16+阅读 · 2018年7月26日
图像降噪算法介绍及实现汇总
极市平台
26+阅读 · 2018年1月3日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
IMAGINE-E:最先进文本到图像模型的图像生成智能评估
专知会员服务
13+阅读 · 2025年2月3日
《基于扩散模型的条件图像生成》综述
专知会员服务
44+阅读 · 2024年10月1日
《可信文本到图像扩散模型》最新综述
专知会员服务
27+阅读 · 2024年9月30日
【ICML2024】双曲几何潜在扩散模型用于图生成
专知会员服务
42+阅读 · 2024年5月8日
【CVPR2024】用于文本到图像生成的判别性探测和调整
专知会员服务
15+阅读 · 2024年3月11日
【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型
专知会员服务
30+阅读 · 2024年3月10日
【NeurIPS 2022】扩散模型的深度平衡方法
专知会员服务
40+阅读 · 2022年11月5日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员