While recent advances in generative latent spaces have driven substantial progress in single-image generation, the optimal latent space for novel view synthesis (NVS) remains largely unexplored. In particular, NVS requires geometrically consistent generation across viewpoints, but existing approaches typically operate in a view-independent VAE latent space. In this paper, we propose Geometric Latent Diffusion (GLD), a framework that repurposes the geometrically consistent feature space of geometric foundation models as the latent space for multi-view diffusion. We show that these features not only support high-fidelity RGB reconstruction but also encode strong cross-view geometric correspondences, providing a well-suited latent space for NVS. Our experiments demonstrate that GLD outperforms both VAE and RAE on 2D image quality and 3D consistency metrics, while accelerating training by more than 4.4x compared to the VAE latent space. Notably, GLD remains competitive with state-of-the-art methods that leverage large-scale text-to-image pretraining, despite training its diffusion model from scratch without such generative pretraining.


翻译:尽管生成潜在空间的最新进展推动了单图像生成的显著进步,但用于新视角合成(NVS)的最优潜在空间仍 largely 未被探索。特别是,NVS 需要在不同视角间实现几何一致的生成,但现有方法通常在与视角无关的 VAE 潜在空间中操作。在本文中,我们提出几何潜在扩散(GLD)框架,该框架将几何基础模型的几何一致特征空间重新用作多视角扩散的潜在空间。我们表明,这些特征不仅支持高保真度 RGB 重建,而且编码了强大的跨视角几何对应关系,为 NVS 提供了高度适用的潜在空间。实验表明,GLD 在二维图像质量和三维一致性指标上均优于 VAE 和 RAE,同时相较于 VAE 潜在空间,训练速度提升超过 4.4 倍。值得注意的是,尽管 GLD 的扩散模型是从零开始训练且未使用此类生成预训练,但它仍能与依赖大规模文本到图像预训练的最新方法竞争。

0
下载
关闭预览

相关内容

【AAAI2025】用于高保真3D重建的多视图条件扩散模型
专知会员服务
19+阅读 · 2024年12月12日
【ICML2024】双曲几何潜在扩散模型用于图生成
专知会员服务
42+阅读 · 2024年5月8日
【博士论文】多视光场光线空间几何模型研究
专知会员服务
24+阅读 · 2021年12月6日
三维重建 3D reconstruction 有哪些实用算法?
极市平台
13+阅读 · 2020年2月23日
基于关系网络的视觉建模:有望替代卷积神经网络
微软研究院AI头条
10+阅读 · 2019年7月12日
深度学习时代的图模型,清华发文综述图网络
GAN生成式对抗网络
13+阅读 · 2018年12月23日
国家自然科学基金
5+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Arxiv
0+阅读 · 3月27日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关基金
国家自然科学基金
5+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员