We present Gen3R, a method that bridges the strong priors of foundational reconstruction models and video diffusion models for scene-level 3D generation. We repurpose the VGGT reconstruction model to produce geometric latents by training an adapter on its tokens, which are regularized to align with the appearance latents of pre-trained video diffusion models. By jointly generating these disentangled yet aligned latents, Gen3R produces both RGB videos and corresponding 3D geometry, including camera poses, depth maps, and global point clouds. Experiments demonstrate that our approach achieves state-of-the-art results in single- and multi-image conditioned 3D scene generation. Additionally, our method can enhance the robustness of reconstruction by leveraging generative priors, demonstrating the mutual benefit of tightly coupling reconstruction and generative models.


翻译:我们提出了Gen3R,一种将基础重建模型的强先验与视频扩散模型相结合,用于场景级三维生成的方法。我们重新利用VGGT重建模型,通过在其token上训练一个适配器来生成几何潜在表示,这些表示经过正则化以与预训练视频扩散模型的外观潜在表示对齐。通过联合生成这些解耦但对齐的潜在表示,Gen3R能够同时生成RGB视频及对应的三维几何信息,包括相机位姿、深度图和全局点云。实验表明,我们的方法在单图像和多图像条件的三维场景生成任务中取得了最先进的结果。此外,通过利用生成先验,我们的方法能够增强重建的鲁棒性,这证明了将重建模型与生成模型紧密耦合能够带来相互增益。

0
下载
关闭预览

相关内容

深度学习的多视角三维重建技术综述
专知会员服务
20+阅读 · 2025年6月7日
三维场景生成:综述
专知会员服务
21+阅读 · 2025年5月9日
三维物体与场景生成的最新进展:综述
专知会员服务
17+阅读 · 2025年4月17日
动态三维场景重建研究综述
专知会员服务
35+阅读 · 2024年8月23日
三维重建 3D reconstruction 有哪些实用算法?
极市平台
13+阅读 · 2020年2月23日
计算机视觉方向简介 | 三维重建技术概述
计算机视觉life
26+阅读 · 2019年6月13日
VAE、GAN、Info-GAN:全解深度学习三大生成模型
数据派THU
20+阅读 · 2017年9月23日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员