As social media platforms proliferate, users increasingly demand intuitive ways to create diverse, high-quality portrait collections. In this work, we introduce Portrait Collection Generation (PCG), a novel task that generates coherent portrait collections by editing a reference portrait image through natural language instructions. This task poses two unique challenges to existing methods: (1) complex multi-attribute modifications such as pose, spatial layout, and camera viewpoint; and (2) high-fidelity detail preservation including identity, clothing, and accessories. To address these challenges, we propose CHEESE, the first large-scale PCG dataset containing 24K portrait collections and 573K samples with high-quality modification text annotations, constructed through an Large Vison-Language Model-based pipeline with inversion-based verification. We further propose SCheese, a framework that combines text-guided generation with hierarchical identity and detail preservation. SCheese employs adaptive feature fusion mechanism to maintain identity consistency, and ConsistencyNet to inject fine-grained features for detail consistency. Comprehensive experiments validate the effectiveness of CHEESE in advancing PCG, with SCheese achieving state-of-the-art performance.


翻译:随着社交媒体平台的激增,用户对创建多样化、高质量肖像集的直观方法需求日益增长。本文引入了肖像集生成这一新颖任务,该任务通过自然语言指令编辑参考肖像图像来生成连贯的肖像集合。此任务对现有方法提出了两个独特挑战:(1) 复杂的多属性修改,如姿态、空间布局和相机视角;(2) 高保真的细节保持,包括身份、服装和配饰。为应对这些挑战,我们提出了CHEESE,首个大规模PCG数据集,包含24K个肖像集和573K个样本,并配有高质量的修改文本标注,该数据集通过基于大型视觉语言模型的流程结合基于反转的验证构建而成。我们进一步提出了SCheese框架,该框架将文本引导生成与分层身份及细节保持相结合。SCheese采用自适应特征融合机制以保持身份一致性,并利用ConsistencyNet注入细粒度特征以实现细节一致性。综合实验验证了CHEESE在推进PCG任务方面的有效性,SCheese实现了最先进的性能。

0
下载
关闭预览

相关内容

【博士论文】基于知识的自然语言理解与生成,230页pdf
专知会员服务
41+阅读 · 2024年4月1日
【NTU博士论文】自然语言处理的自回归生成,173页pdf
专知会员服务
26+阅读 · 2024年2月18日
专知会员服务
65+阅读 · 2021年5月29日
专知会员服务
71+阅读 · 2021年3月29日
自然语言生成资源列表
专知
17+阅读 · 2020年1月4日
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
视频生成的前沿论文,看我们推荐的7篇就够了
人工智能前沿讲习班
34+阅读 · 2018年12月30日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关资讯
自然语言生成资源列表
专知
17+阅读 · 2020年1月4日
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
视频生成的前沿论文,看我们推荐的7篇就够了
人工智能前沿讲习班
34+阅读 · 2018年12月30日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员