Personalized text-to-image generation aims to synthesize images of user-provided concepts in diverse contexts. Despite recent progress in multi-concept personalization, most are limited to object concepts and struggle to customize abstract concepts (e.g., pose, lighting). Some methods have begun exploring multi-concept personalization supporting abstract concepts, but they require test-time fine-tuning for each new concept, which is time-consuming and prone to overfitting on limited training images. In this work, we propose a novel tuning-free method for multi-concept personalization that can effectively customize both object and abstract concepts without test-time fine-tuning. Our method builds upon the modulation mechanism in pre-trained Diffusion Transformers (DiTs) model, leveraging the localized and semantically meaningful properties of the modulation space. Specifically, we propose a novel module, Mod-Adapter, to predict concept-specific modulation direction for the modulation process of concept-related text tokens. It introduces vision-language cross-attention for extracting concept visual features, and Mixture-of-Experts (MoE) layers that adaptively map the concept features into the modulation space. Furthermore, to mitigate the training difficulty caused by the large gap between the concept image space and the modulation space, we introduce a VLM-guided pre-training strategy that leverages the strong image understanding capabilities of vision-language models to provide semantic supervision signals. For a comprehensive comparison, we extend a standard benchmark by incorporating abstract concepts. Our method achieves state-of-the-art performance in multi-concept personalization, supported by quantitative, qualitative, and human evaluations.


翻译:个性化文本到图像生成旨在根据用户提供的概念,在多样化的情境中合成图像。尽管多概念个性化研究近期取得进展,但现有方法大多局限于物体概念,难以定制抽象概念(如姿态、光照)。部分方法已开始探索支持抽象概念的多概念个性化,但它们需要对每个新概念进行测试时微调,这一过程耗时且易在有限训练图像上过拟合。本研究提出一种新颖的免调优多概念个性化方法,能够在不进行测试时微调的情况下,有效定制物体与抽象概念。该方法基于预训练扩散Transformer(DiTs)模型中的调制机制,利用调制空间的局部化与语义丰富特性。具体而言,我们提出新型模块Mod-Adapter,用于预测概念相关文本词元调制过程中的概念特定调制方向。该模块引入视觉-语言交叉注意力以提取概念视觉特征,并采用专家混合(MoE)层将概念特征自适应映射至调制空间。此外,为缓解概念图像空间与调制空间巨大差异导致的训练困难,我们提出视觉语言模型引导的预训练策略,利用视觉语言模型强大的图像理解能力提供语义监督信号。为进行全面比较,我们在标准基准测试中扩展了抽象概念评估维度。通过定量、定性与人工评估验证,本方法在多概念个性化任务中达到了最先进的性能水平。

0
下载
关闭预览

相关内容

大模型时代的个性化生成:综述
专知会员服务
43+阅读 · 2025年3月10日
基于深度生成模型的个性化图像生成:十年综述
专知会员服务
19+阅读 · 2025年2月19日
大规模语言模型的个性化:综述
专知会员服务
43+阅读 · 2024年11月4日
专知会员服务
149+阅读 · 2020年9月6日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
多模态深度学习综述,18页pdf
专知
51+阅读 · 2020年3月29日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
KDD 2026 | MixRAGRec:面向LLM推荐的混合专家KG-RAG框架
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
3+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
4+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
14+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
8+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
战略前沿人工智能的再思考(中文)
专知会员服务
8+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
6+阅读 · 5月29日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员