While diffusion model fine-tuning offers a powerful approach for customizing pre-trained models to generate specific objects, it frequently suffers from overfitting when training samples are limited, compromising both generalization capability and output diversity. This paper tackles the challenging yet most impactful task of adapting a diffusion model using just a single concept image, as single-image customization holds the greatest practical potential. We introduce T-LoRA, a Timestep-Dependent Low-Rank Adaptation framework specifically designed for diffusion model personalization. We show that higher diffusion timesteps are more prone to overfitting than lower ones, necessitating a timestep-sensitive fine-tuning strategy. T-LoRA incorporates two key innovations: (1) a dynamic fine-tuning strategy that adjusts rank-constrained updates based on diffusion timesteps, and (2) a weight parametrization technique that ensures independence between adapter components through orthogonal initialization. Extensive experiments on SD-XL and FLUX-1.dev show that T-LoRA and its individual components outperform standard LoRA and other diffusion model personalization techniques, achieving a superior balance between concept fidelity and text alignment. Project page is available at https://controlgenai.github.io/T-LoRA/.


翻译:尽管扩散模型微调为将预训练模型定制化以生成特定对象提供了一种强大方法,但在训练样本有限时,它经常遭受过拟合问题,从而损害泛化能力和输出多样性。本文致力于解决仅使用单张概念图像来适配扩散模型这一极具挑战性但最具实际影响力的任务,因为单图像定制拥有最大的实用潜力。我们提出了T-LoRA,一个专门为扩散模型个性化设计的、时间步依赖的低秩适配框架。我们发现,较高的扩散时间步比较低的时间步更容易发生过拟合,因此需要一种对时间步敏感的微调策略。T-LoRA包含两项关键创新:(1) 一种基于扩散时间步动态调整秩约束更新的动态微调策略;(2) 一种通过正交初始化确保适配器组件之间独立性的权重参数化技术。在SD-XL和FLUX-1.dev上进行的大量实验表明,T-LoRA及其各个组件均优于标准LoRA及其他扩散模型个性化技术,在概念保真度和文本对齐之间实现了更优的平衡。项目页面位于 https://controlgenai.github.io/T-LoRA/。

0
下载
关闭预览

相关内容

【简明书】扩散模型在图像和视觉领域的教程,51页pdf
专知会员服务
58+阅读 · 2024年3月29日
《扩散模型图像编辑》综述
专知会员服务
28+阅读 · 2024年2月28日
「扩散模型」资料最新大合集
专知会员服务
71+阅读 · 2022年10月10日
详解扩散模型:从DDPM到稳定扩散,附Slides与视频
专知会员服务
87+阅读 · 2022年10月9日
如何理解模型的过拟合与欠拟合,以及如何解决?
七月在线实验室
12+阅读 · 2019年4月23日
CVPR 2019 | 无监督领域特定单图像去模糊
PaperWeekly
14+阅读 · 2019年3月20日
用 LDA 和 LSA 两种方法来降维和做 Topic 建模
AI研习社
13+阅读 · 2018年8月24日
【学界】 李飞飞学生最新论文:利用场景图生成图像
GAN生成式对抗网络
15+阅读 · 2018年4月9日
深度图像先验:无需学习即可生成新图像
论智
45+阅读 · 2017年12月4日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员