ReconFusion: 3D Reconstruction with Diffusion Priors

Rundi Wu,Ben Mildenhall,Philipp Henzler,Keunhong Park,Ruiqi Gao,Daniel Watson,Pratul P. Srinivasan,Dor Verbin,Jonathan T. Barron,Ben Poole,Aleksander Holynski

from arxiv, Project page: https://reconfusion.github.io/

3D reconstruction methods such as Neural Radiance Fields (NeRFs) excel at rendering photorealistic novel views of complex scenes. However, recovering a high-quality NeRF typically requires tens to hundreds of input images, resulting in a time-consuming capture process. We present ReconFusion to reconstruct real-world scenes using only a few photos. Our approach leverages a diffusion prior for novel view synthesis, trained on synthetic and multiview datasets, which regularizes a NeRF-based 3D reconstruction pipeline at novel camera poses beyond those captured by the set of input images. Our method synthesizes realistic geometry and texture in underconstrained regions while preserving the appearance of observed regions. We perform an extensive evaluation across various real-world datasets, including forward-facing and 360-degree scenes, demonstrating significant performance improvements over previous few-view NeRF reconstruction approaches.

翻译：诸如神经辐射场（NeRF）等三维重建方法在渲染复杂场景的照片级真实新视角方面表现出色。然而，恢复高质量NeRF通常需要数十至数百张输入图像，导致采集过程耗时。本文提出ReconFusion，仅需少量照片即可重建真实场景。该方法利用扩散先验进行新视角合成，该先验基于合成数据集和多视角数据集训练，能够在输入图像捕获视角之外的新相机位姿上对NeRF三维重建管道进行正则化。在欠约束区域，我们的方法能合成合理的几何与纹理，同时保留观测区域的外观。我们在多种真实场景数据集上进行了全面评估，涵盖前向场景和360度场景，结果表明该方法相较于以往少视角NeRF重建方法取得了显著性能提升。

相关内容

三维重建

关注 1174

在计算机视觉中, 三维重建是指根据单视图或者多视图的图像重建三维信息的过程. 由于单视频的信息不完全,因此三维重建需要利用经验知识. 而多视图的三维重建(类似人的双目定位)相对比较容易, 其方法是先对摄像机进行标定, 即计算出摄像机的图象坐标系与世界坐标系的关系.然后利用多个二维图象中的信息重建出三维信息。物体三维重建是计算机辅助几何设计(CAGD)、计算机图形学(CG)、计算机动画、计算机视觉、医学图像处理、科学计算和虚拟现实、数字媒体创作等领域的共性科学问题和核心技术。在计算机内生成物体三维表示主要有两类方法。一类是使用几何建模软件通过人机交互生成人为控制下的物体三维几何模型,另一类是通过一定的手段获取真实物体的几何形状。前者实现技术已经十分成熟,现有若干软件支持,比如:3DMAX、Maya、AutoCAD、UG等等,它们一般使用具有数学表达式的曲线曲面表示几何形状。后者一般称为三维重建过程,三维重建是指利用二维投影恢复物体三维信息(形状等)的数学过程和计算机技术,包括数据获取、预处理、点云拼接和特征分析等步骤。

【NeurIPS2021】用于文本图表示学习的 GNN 嵌套 Transformer 模型：GraphFormers

专知会员服务

46+阅读 · 2021年11月24日

Linux导论，Introduction to Linux，96页ppt

专知会员服务

82+阅读 · 2020年7月26日

FlowQA: Grasping Flow in History for Conversational Machine Comprehension

专知会员服务

34+阅读 · 2019年10月18日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日