Garment-centric fashion image generation aims to synthesize realistic and controllable human models dressing a given garment, which has attracted growing interest due to its practical applications in e-commerce. The key challenges of the task lie in two aspects: (1) faithfully preserving the garment details, and (2) gaining fine-grained controllability over the model's appearance. Existing methods typically require performing garment deformation in the generation process, which often leads to garment texture distortions. Also, they fail to control the fine-grained attributes of the generated models, due to the lack of specifically designed mechanisms. To address these issues, we propose FashionMAC, a novel diffusion-based deformation-free framework that achieves high-quality and controllable fashion showcase image generation. The core idea of our framework is to eliminate the need for performing garment deformation and directly outpaint the garment segmented from a dressed person, which enables faithful preservation of the intricate garment details. Moreover, we propose a novel region-adaptive decoupled attention (RADA) mechanism along with a chained mask injection strategy to achieve fine-grained appearance controllability over the synthesized human models. Specifically, RADA adaptively predicts the generated regions for each fine-grained text attribute and enforces the text attribute to focus on the predicted regions by a chained mask injection strategy, significantly enhancing the visual fidelity and the controllability. Extensive experiments validate the superior performance of our framework compared to existing state-of-the-art methods.


翻译:以服装为中心的时尚图像生成旨在合成穿着给定服装的真实且可控的人体模型,因其在电子商务中的实际应用而日益受到关注。该任务的关键挑战在于两个方面:(1) 忠实地保留服装细节;(2) 实现对模型外观的细粒度可控性。现有方法通常需要在生成过程中进行服装变形,这往往导致服装纹理失真。同时,由于缺乏专门设计的机制,它们无法控制生成模型的细粒度属性。为解决这些问题,我们提出了FashionMAC,一种新颖的基于扩散的无变形框架,能够实现高质量且可控的时尚展示图像生成。我们框架的核心思想是消除执行服装变形的需要,直接对从着装人物分割出的服装进行外绘,从而能够忠实地保留复杂的服装细节。此外,我们提出了一种新颖的区域自适应解耦注意力(RADA)机制以及链式掩码注入策略,以实现对合成人体模型的细粒度外观可控性。具体而言,RADA自适应地预测每个细粒度文本属性对应的生成区域,并通过链式掩码注入策略强制文本属性聚焦于预测区域,显著提升了视觉保真度和可控性。大量实验验证了我们的框架相较于现有最先进方法的优越性能。

0
下载
关闭预览

相关内容

《基于图像的虚拟试穿》综述
专知会员服务
22+阅读 · 2023年11月10日
专家报告 | 个性化图像美学评价
中国图象图形学报
14+阅读 · 2020年7月15日
多图带你读懂 Transformers 的工作原理
AI研习社
10+阅读 · 2019年3月18日
图像美学质量评价技术发展趋势
科技导报
19+阅读 · 2018年6月25日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
《系统簇式多域作战规划范畴论框架》
专知会员服务
2+阅读 · 4月20日
高效视频扩散模型:进展与挑战
专知会员服务
0+阅读 · 4月20日
乌克兰前线的五项创新
专知会员服务
6+阅读 · 4月20日
 军事通信系统与设备的技术演进综述
专知会员服务
4+阅读 · 4月20日
《北约标准:医疗评估手册》174页
专知会员服务
4+阅读 · 4月20日
《提升生成模型的安全性与保障》博士论文
专知会员服务
4+阅读 · 4月20日
美国当前高超音速导弹发展概述
专知会员服务
4+阅读 · 4月19日
无人机蜂群建模与仿真方法
专知会员服务
14+阅读 · 4月19日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员