Joint Learning of Depth, Pose, and Local Radiance Field for Large Scale Monocular 3D Reconstruction - 专知论文

会员服务 ·

0

辐射 · 辐射场 · 重建 · 联合学习 · 三维重建 ·

Joint Learning of Depth, Pose, and Local Radiance Field for Large Scale Monocular 3D Reconstruction

翻译：联合学习深度、姿态与局部辐射场的大规模单目三维重建

Shahram Najam Syed,Yitian Hu,Yuchao Yao

from arxiv, 8 pages, 2 figures, 2 tables

Photorealistic 3-D reconstruction from monocular video collapses in large-scale scenes when depth, pose, and radiance are solved in isolation: scale-ambiguous depth yields ghost geometry, long-horizon pose drift corrupts alignment, and a single global NeRF cannot model hundreds of metres of content. We introduce a joint learning framework that couples all three factors and demonstrably overcomes each failure case. Our system begins with a Vision-Transformer (ViT) depth network trained with metric-scale supervision, giving globally consistent depths despite wide field-of-view variations. A multi-scale feature bundle-adjustment (BA) layer refines camera poses directly in feature space--leveraging learned pyramidal descriptors instead of brittle keypoints--to suppress drift on unconstrained trajectories. For scene representation, we deploy an incremental local-radiance-field hierarchy: new hash-grid NeRFs are allocated and frozen on-the-fly when view overlap falls below a threshold, enabling city-block-scale coverage on a single GPU. Evaluated on the Tanks and Temples benchmark, our method reduces Absolute Trajectory Error to 0.001-0.021 m across eight indoor-outdoor sequences--up to 18x lower than BARF and 2x lower than NoPe-NeRF--while maintaining sub-pixel Relative Pose Error. These results demonstrate that metric-scale, drift-free 3-D reconstruction and high-fidelity novel-view synthesis are achievable from a single uncalibrated RGB camera.

翻译：在大型场景中，当深度、姿态和辐射场被孤立求解时，基于单目视频的光照真实三维重建会失效：尺度模糊的深度导致伪影几何，长时程姿态漂移破坏对齐，而单一全局神经辐射场无法建模数百米范围的内容。我们提出了一种联合学习框架，将三个因素耦合起来，并显著克服了每种失效情况。我们的系统从具有度量尺度监督训练的视觉Transformer（ViT）深度网络开始，即使在宽视场变化下也能提供全局一致的深度。多尺度特征束调整层直接在特征空间中优化相机姿态——利用学习到的金字塔描述符而非脆弱的特征点——以抑制无约束轨迹上的漂移。对于场景表示，我们部署了增量式局部辐射场层次结构：当视图重叠度低于阈值时，系统动态分配并冻结新的哈希网格神经辐射场，从而在单个GPU上实现城市街区尺度的覆盖。在Tanks and Temples基准测试中，我们的方法在八个室内外序列上将绝对轨迹误差降低至0.001-0.021米——比BARF降低高达18倍，比NoPe-NeRF降低2倍——同时保持亚像素级相对姿态误差。这些结果表明，从单一未标定RGB相机实现度量尺度、无漂移的三维重建与高保真新视角合成是可行的。

0

相关内容

【博士论文】室内场景三维重建的基于学习的方法

【博士论文】室内场景三维重建的基于学习的方法

专知会员服务

12+阅读 · 2月16日

深度学习的多视角三维重建技术综述

深度学习的多视角三维重建技术综述

专知会员服务

24+阅读 · 2025年6月7日

动态三维场景重建研究综述

动态三维场景重建研究综述

专知会员服务

36+阅读 · 2024年8月23日

非刚性场景三维重建的最新趋势：最新技术

非刚性场景三维重建的最新趋势：最新技术

专知会员服务

19+阅读 · 2024年5月16日

【CVPR2024】VastGaussian: 用于大型场景重建的巨大三维高斯

【CVPR2024】VastGaussian: 用于大型场景重建的巨大三维高斯

专知会员服务

25+阅读 · 2024年3月3日

【CMU博士论文】开放环境视频中的多人三维重建，184页pdf

【CMU博士论文】开放环境视频中的多人三维重建，184页pdf

专知会员服务

34+阅读 · 2023年10月11日

深度学习背景下的图像三维重建技术进展综述

深度学习背景下的图像三维重建技术进展综述

专知会员服务

40+阅读 · 2023年9月4日

南大清华发布《从单目图像中恢复三维人体网格》综述论文，涵盖246篇文献全年阐述单目3D人体网格恢复研究进展

南大清华发布《从单目图像中恢复三维人体网格》综述论文，涵盖246篇文献全年阐述单目3D人体网格恢复研究进展

专知会员服务

33+阅读 · 2022年3月21日

基于图像的大规模室外三维重建技术进展综述

专知会员服务

56+阅读 · 2021年4月4日

基于深度学习的单幅图像超分辨率重建算法综述

专知会员服务

35+阅读 · 2021年2月7日

三维重建 3D reconstruction 有哪些实用算法？

三维重建 3D reconstruction 有哪些实用算法？

极市平台

13+阅读 · 2020年2月23日

【华南理工大学ICCV-CVPR2019】基于单一的RGB图像的拓扑感知的三维物体重建

【华南理工大学ICCV-CVPR2019】基于单一的RGB图像的拓扑感知的三维物体重建

专知

18+阅读 · 2020年1月15日

计算机视觉方向简介 | 三维重建技术概述

计算机视觉方向简介 | 三维重建技术概述

计算机视觉life

26+阅读 · 2019年6月13日

计算机视觉方向简介 | 基于单目视觉的三维重建算法

计算机视觉方向简介 | 基于单目视觉的三维重建算法

计算机视觉life

32+阅读 · 2019年4月9日

SkeletonNet：完整的人体三维位姿重建方法

SkeletonNet：完整的人体三维位姿重建方法

计算机视觉life

21+阅读 · 2019年1月21日

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

计算机视觉life

19+阅读 · 2018年12月27日

计算机视觉方向简介 | 深度相机室内实时稠密三维重建

计算机视觉方向简介 | 深度相机室内实时稠密三维重建

计算机视觉life

17+阅读 · 2018年5月23日

深度学习之图像超分辨重建技术

深度学习之图像超分辨重建技术

机器学习研究会

12+阅读 · 2018年3月24日

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（下）

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（下）

AI科技评论

13+阅读 · 2017年11月13日

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（上）

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（上）

AI科技评论

10+阅读 · 2017年11月12日

基于各向异性点光源的近场光度学三维重建问题研究

国家自然科学基金

2+阅读 · 2017年12月31日

动态环境下的实时高清大规模三维地形重建研究

国家自然科学基金

3+阅读 · 2015年12月31日

相干场成像高精度目标重构技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

基于体素划分模型的多视图深度信息融合三维重建研究

国家自然科学基金

2+阅读 · 2015年12月31日

地面激光雷达与设计数据正逆向结合的建筑物三维重建技术

国家自然科学基金

0+阅读 · 2015年12月31日

复杂场景点线光流三维重建模型的建立及鲁棒性分析

国家自然科学基金

2+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

融合机载与车载点云的建筑物群快速三维重建方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

超光谱、全偏振、立体形貌的多模态成像研究

国家自然科学基金

0+阅读 · 2014年12月31日

MessyKitchens: Contact-rich object-level 3D scene reconstruction

Arxiv

0+阅读 · 3月17日

ArtiFixer: Enhancing and Extending 3D Reconstruction with Auto-Regressive Diffusion Models

Arxiv

0+阅读 · 2月28日

PhysConvex: Physics-Informed 3D Dynamic Convex Radiance Fields for Reconstruction and Simulation

Arxiv

0+阅读 · 2月21日

Towards Geometric and Textural Consistency 3D Scene Generation via Single Image-guided Model Generation and Layout Optimization

Arxiv

1+阅读 · 2月17日

Monocular Reconstruction of Neural Tactile Fields

Arxiv

0+阅读 · 2月13日

Modulate and Reconstruct: Learning Hyperspectral Imaging from Misaligned Smartphone Views

Arxiv

0+阅读 · 2月9日

Perspective-aware fusion of incomplete depth maps and surface normals for accurate 3D reconstruction

Arxiv

0+阅读 · 2月7日

Efficient Scene Modeling via Structure-Aware and Region-Prioritized 3D Gaussians

Arxiv

0+阅读 · 2月5日

S-MUSt3R: Sliding Multi-view 3D Reconstruction

Arxiv

0+阅读 · 2月4日

JOintGS: Joint Optimization of Cameras, Bodies and 3D Gaussians for In-the-Wild Monocular Reconstruction

Arxiv

0+阅读 · 2月4日

VIP会员

文章信息

相关主题

最新内容

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

0+阅读 · 今天14:41

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

2+阅读 · 今天14:37

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

2+阅读 · 今天14:13

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

2+阅读 · 今天14:11

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

2+阅读 · 今天14:05

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

2+阅读 · 今天13:23

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

专知会员服务

1+阅读 · 今天13:11

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

14+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

7+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

7+阅读 · 7月19日

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

8+阅读 · 7月19日

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

11+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

8+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

13+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

9+阅读 · 7月18日

相关VIP内容

【博士论文】室内场景三维重建的基于学习的方法

【博士论文】室内场景三维重建的基于学习的方法

专知会员服务

12+阅读 · 2月16日

深度学习的多视角三维重建技术综述

深度学习的多视角三维重建技术综述

专知会员服务

24+阅读 · 2025年6月7日

动态三维场景重建研究综述

动态三维场景重建研究综述

专知会员服务

36+阅读 · 2024年8月23日

非刚性场景三维重建的最新趋势：最新技术

非刚性场景三维重建的最新趋势：最新技术

专知会员服务

19+阅读 · 2024年5月16日

【CVPR2024】VastGaussian: 用于大型场景重建的巨大三维高斯

【CVPR2024】VastGaussian: 用于大型场景重建的巨大三维高斯

专知会员服务

25+阅读 · 2024年3月3日

【CMU博士论文】开放环境视频中的多人三维重建，184页pdf

【CMU博士论文】开放环境视频中的多人三维重建，184页pdf

专知会员服务

34+阅读 · 2023年10月11日

深度学习背景下的图像三维重建技术进展综述

深度学习背景下的图像三维重建技术进展综述

专知会员服务

40+阅读 · 2023年9月4日

南大清华发布《从单目图像中恢复三维人体网格》综述论文，涵盖246篇文献全年阐述单目3D人体网格恢复研究进展

南大清华发布《从单目图像中恢复三维人体网格》综述论文，涵盖246篇文献全年阐述单目3D人体网格恢复研究进展

专知会员服务

33+阅读 · 2022年3月21日

基于图像的大规模室外三维重建技术进展综述

专知会员服务

56+阅读 · 2021年4月4日

基于深度学习的单幅图像超分辨率重建算法综述

专知会员服务

35+阅读 · 2021年2月7日

热门VIP内容

开通专知VIP会员享更多权益服务

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

印度精确打击与指挥架构的断层

美空军AI完成F-16战斗机自主空战历史性试飞

相关资讯

三维重建 3D reconstruction 有哪些实用算法？

三维重建 3D reconstruction 有哪些实用算法？

极市平台

13+阅读 · 2020年2月23日

【华南理工大学ICCV-CVPR2019】基于单一的RGB图像的拓扑感知的三维物体重建

【华南理工大学ICCV-CVPR2019】基于单一的RGB图像的拓扑感知的三维物体重建

专知

18+阅读 · 2020年1月15日

计算机视觉方向简介 | 三维重建技术概述

计算机视觉方向简介 | 三维重建技术概述

计算机视觉life

26+阅读 · 2019年6月13日

计算机视觉方向简介 | 基于单目视觉的三维重建算法

计算机视觉方向简介 | 基于单目视觉的三维重建算法

计算机视觉life

32+阅读 · 2019年4月9日

SkeletonNet：完整的人体三维位姿重建方法

SkeletonNet：完整的人体三维位姿重建方法

计算机视觉life

21+阅读 · 2019年1月21日

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

计算机视觉life

19+阅读 · 2018年12月27日

计算机视觉方向简介 | 深度相机室内实时稠密三维重建

计算机视觉方向简介 | 深度相机室内实时稠密三维重建

计算机视觉life

17+阅读 · 2018年5月23日

深度学习之图像超分辨重建技术

深度学习之图像超分辨重建技术

机器学习研究会

12+阅读 · 2018年3月24日

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（下）

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（下）

AI科技评论

13+阅读 · 2017年11月13日

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（上）

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（上）

AI科技评论

10+阅读 · 2017年11月12日

相关论文

MessyKitchens: Contact-rich object-level 3D scene reconstruction

Arxiv

0+阅读 · 3月17日

ArtiFixer: Enhancing and Extending 3D Reconstruction with Auto-Regressive Diffusion Models

Arxiv

0+阅读 · 2月28日

PhysConvex: Physics-Informed 3D Dynamic Convex Radiance Fields for Reconstruction and Simulation

Arxiv

0+阅读 · 2月21日

Towards Geometric and Textural Consistency 3D Scene Generation via Single Image-guided Model Generation and Layout Optimization

Arxiv

1+阅读 · 2月17日

Monocular Reconstruction of Neural Tactile Fields

Arxiv

0+阅读 · 2月13日

Modulate and Reconstruct: Learning Hyperspectral Imaging from Misaligned Smartphone Views

Arxiv

0+阅读 · 2月9日

Perspective-aware fusion of incomplete depth maps and surface normals for accurate 3D reconstruction

Arxiv

0+阅读 · 2月7日

Efficient Scene Modeling via Structure-Aware and Region-Prioritized 3D Gaussians

Arxiv

0+阅读 · 2月5日

S-MUSt3R: Sliding Multi-view 3D Reconstruction

Arxiv

0+阅读 · 2月4日

JOintGS: Joint Optimization of Cameras, Bodies and 3D Gaussians for In-the-Wild Monocular Reconstruction

Arxiv

0+阅读 · 2月4日

相关基金

基于各向异性点光源的近场光度学三维重建问题研究

国家自然科学基金

2+阅读 · 2017年12月31日

动态环境下的实时高清大规模三维地形重建研究

国家自然科学基金

3+阅读 · 2015年12月31日

相干场成像高精度目标重构技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

基于体素划分模型的多视图深度信息融合三维重建研究

国家自然科学基金

2+阅读 · 2015年12月31日

地面激光雷达与设计数据正逆向结合的建筑物三维重建技术

国家自然科学基金

0+阅读 · 2015年12月31日

复杂场景点线光流三维重建模型的建立及鲁棒性分析

国家自然科学基金

2+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

融合机载与车载点云的建筑物群快速三维重建方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

超光谱、全偏振、立体形貌的多模态成像研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员