Recently, significant advancements have been made in 3D generative models, however training these models across diverse domains is challenging and requires an huge amount of training data and knowledge of pose distribution. Text-guided domain adaptation methods have allowed the generator to be adapted to the target domains using text prompts, thereby obviating the need for assembling numerous data. Recently, DATID-3D presents impressive quality of samples in text-guided domain, preserving diversity in text by leveraging text-to-image diffusion. However, adapting 3D generators to domains with significant domain gaps from the source domain still remains challenging due to issues in current text-to-image diffusion models as following: 1) shape-pose trade-off in diffusion-based translation, 2) pose bias, and 3) instance bias in the target domain, resulting in inferior 3D shapes, low text-image correspondence, and low intra-domain diversity in the generated samples. To address these issues, we propose a novel pipeline called PODIA-3D, which uses pose-preserved text-to-image diffusion-based domain adaptation for 3D generative models. We construct a pose-preserved text-to-image diffusion model that allows the use of extremely high-level noise for significant domain changes. We also propose specialized-to-general sampling strategies to improve the details of the generated samples. Moreover, to overcome the instance bias, we introduce a text-guided debiasing method that improves intra-domain diversity. Consequently, our method successfully adapts 3D generators across significant domain gaps. Our qualitative results and user study demonstrates that our approach outperforms existing 3D text-guided domain adaptation methods in terms of text-image correspondence, realism, diversity of rendered images, and sense of depth of 3D shapes in the generated samples


翻译:近期,三维生成模型取得了显著进展,但在不同领域间训练这些模型仍具有挑战性,且需要大量训练数据和姿态分布知识。文本引导的领域自适应方法允许通过文本提示将生成器适配到目标领域,从而避免收集海量数据。其中,DATID-3D方法在文本引导领域展现了令人印象深刻的样本质量,通过利用文本到图像扩散保留了文本多样性。然而,由于当前文本到图像扩散模型存在以下问题,将三维生成器适配到与源领域存在显著领域差距的目标领域仍具挑战:1)基于扩散的翻译中形状-姿态的权衡;2)姿态偏差;3)目标领域的实例偏差,导致生成样本中三维形状质量低下、文本-图像对应性差且领域内多样性不足。针对这些问题,我们提出了一种名为PODIA-3D的新型流程,该流程采用基于保持姿态的文本到图像扩散实现三维生成模型的领域自适应。我们构建了保持姿态的文本到图像扩散模型,允许使用极高强度的噪声进行显著的领域变化。同时,我们还提出了从专用到通用的采样策略,以提升生成样本的细节质量。此外,为克服实例偏差,我们引入了一种文本引导的去偏方法,增强了领域内多样性。最终,我们的方法成功实现了三维生成器在显著领域差距下的自适应。定性结果与用户研究表明,在生成样本的文本-图像对应性、逼真度、渲染图像多样性以及三维形状深度感方面,我们的方法优于现有三维文本引导领域自适应方法。

0
下载
关闭预览

相关内容

基于条件扩散模型的文本到图像合成, 32页ppt
专知会员服务
26+阅读 · 2022年11月21日
专知会员服务
16+阅读 · 2021年5月13日
【CVPR2021】GAN人脸预训练模型
专知会员服务
24+阅读 · 2021年4月10日
探幽深度生成模型的两种方法:VAE和GAN
AI前线
15+阅读 · 2018年3月10日
在TensorFlow中对比两大生成模型:VAE与GAN
机器之心
12+阅读 · 2017年10月23日
Generative Adversarial Text to Image Synthesis论文解读
统计学习与视觉计算组
13+阅读 · 2017年6月9日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
3+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年5月24日
Arxiv
0+阅读 · 2023年5月24日
Arxiv
0+阅读 · 2023年5月23日
Arxiv
13+阅读 · 2021年3月29日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
相关基金
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
3+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员