S-MUSt3R：滑动多视图三维重建 (S-MUSt3R: Sliding Multi-view 3D Reconstruction) - 专知论文

会员服务 ·

0

重建 · 三维重建 · 多视图 · 序列 · 大模型 ·

S-MUSt3R: Sliding Multi-view 3D Reconstruction

翻译：S-MUSt3R：滑动多视图三维重建

Leonid Antsfeld,Boris Chidlovskii,Yohann Cabon,Vincent Leroy,Jerome Revaud

from arxiv, 8 pages, 5 figures, 5 tables

The recent paradigm shift in 3D vision led to the rise of foundation models with remarkable capabilities in 3D perception from uncalibrated images. However, extending these models to large-scale RGB stream 3D reconstruction remains challenging due to memory limitations. This work proposes S-MUSt3R, a simple and efficient pipeline that extends the limits of foundation models for monocular 3D reconstruction. Our approach addresses the scalability bottleneck of foundation models through a simple strategy of sequence segmentation followed by segment alignment and lightweight loop closure optimization. Without model retraining, we benefit from remarkable 3D reconstruction capacities of MUSt3R model and achieve trajectory and reconstruction performance comparable to traditional methods with more complex architecture. We evaluate S-MUSt3R on TUM, 7-Scenes and proprietary robot navigation datasets and show that S-MUSt3R runs successfully on long RGB sequences and produces accurate and consistent 3D reconstruction. Our results highlight the potential of leveraging the MUSt3R model for scalable monocular 3D scene in real-world settings, with an important advantage of making predictions directly in the metric space.

翻译：近期三维视觉领域的范式转变催生了基础模型的兴起，这些模型从未标定图像中感知三维信息的能力令人瞩目。然而，由于内存限制，将这些模型扩展到大规模RGB流三维重建仍然具有挑战性。本研究提出了S-MUSt3R，一种简单高效的流程，旨在扩展基础模型在单目三维重建中的能力边界。我们的方法通过序列分割、分段对齐与轻量级闭环优化的简单策略，解决了基础模型的可扩展性瓶颈。无需重新训练模型，我们即可受益于MUSt3R模型卓越的三维重建能力，并获得与传统复杂架构方法相媲美的轨迹与重建性能。我们在TUM、7-Scenes及私有机器人导航数据集上评估了S-MUSt3R，结果表明S-MUSt3R能够成功处理长RGB序列，并生成精确且一致的三维重建结果。我们的研究凸显了利用MUSt3R模型在真实世界场景中实现可扩展单目三维场景重建的潜力，其重要优势在于能够直接在度量空间中进行预测。

0

相关内容

一种基于视觉算法生成三维场景重建的多任务系统 | 2025最新200页

一种基于视觉算法生成三维场景重建的多任务系统 | 2025最新200页

专知会员服务

22+阅读 · 2025年10月20日

深度学习的多视角三维重建技术综述

深度学习的多视角三维重建技术综述

专知会员服务

20+阅读 · 2025年6月7日

【剑桥博士论文】基于图像的三维重建：神经隐式表示的可微渲染方法

【剑桥博士论文】基于图像的三维重建：神经隐式表示的可微渲染方法

专知会员服务

18+阅读 · 2025年6月5日

非刚性场景三维重建的最新趋势：最新技术

非刚性场景三维重建的最新趋势：最新技术

专知会员服务

19+阅读 · 2024年5月16日

【CMU博士论文】稀疏视角三维重建，147页pdf

【CMU博士论文】稀疏视角三维重建，147页pdf

专知会员服务

32+阅读 · 2024年5月16日

【CMU博士论文】开放环境视频中的多人三维重建，184页pdf

【CMU博士论文】开放环境视频中的多人三维重建，184页pdf

专知会员服务

34+阅读 · 2023年10月11日

深度学习背景下的图像三维重建技术进展综述

深度学习背景下的图像三维重建技术进展综述

专知会员服务

38+阅读 · 2023年9月4日

南大清华发布《从单目图像中恢复三维人体网格》综述论文，涵盖246篇文献全年阐述单目3D人体网格恢复研究进展

南大清华发布《从单目图像中恢复三维人体网格》综述论文，涵盖246篇文献全年阐述单目3D人体网格恢复研究进展

专知会员服务

33+阅读 · 2022年3月21日

Swin Transformer重磅升级！Swin V2：向更大容量、更高分辨率的更大模型迈进

Swin Transformer重磅升级！Swin V2：向更大容量、更高分辨率的更大模型迈进

专知会员服务

28+阅读 · 2021年11月20日

基于图像的大规模室外三维重建技术进展综述

专知会员服务

56+阅读 · 2021年4月4日

三维重建 3D reconstruction 有哪些实用算法？

三维重建 3D reconstruction 有哪些实用算法？

极市平台

13+阅读 · 2020年2月23日

【华南理工大学ICCV-CVPR2019】基于单一的RGB图像的拓扑感知的三维物体重建

【华南理工大学ICCV-CVPR2019】基于单一的RGB图像的拓扑感知的三维物体重建

专知

18+阅读 · 2020年1月15日

计算机视觉方向简介 | 三维重建技术概述

计算机视觉方向简介 | 三维重建技术概述

计算机视觉life

26+阅读 · 2019年6月13日

计算机视觉方向简介 | 基于单目视觉的三维重建算法

计算机视觉方向简介 | 基于单目视觉的三维重建算法

计算机视觉life

32+阅读 · 2019年4月9日

三维感知与三维数据分析最新进展 - 3D传感&人工智能前沿科技论坛

三维感知与三维数据分析最新进展 - 3D传感&人工智能前沿科技论坛

AI科技评论

10+阅读 · 2019年2月2日

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

计算机视觉life

19+阅读 · 2018年12月27日

计算机视觉方向简介 | 深度相机室内实时稠密三维重建

计算机视觉方向简介 | 深度相机室内实时稠密三维重建

计算机视觉life

17+阅读 · 2018年5月23日

【泡泡一分钟】基于多视图卷积网络的草图三维重建技术(3dv-66)

【泡泡一分钟】基于多视图卷积网络的草图三维重建技术(3dv-66)

泡泡机器人SLAM

11+阅读 · 2018年3月31日

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（下）

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（下）

AI科技评论

13+阅读 · 2017年11月13日

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（上）

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（上）

AI科技评论

10+阅读 · 2017年11月12日

基于散射点密度信息熵的层析SAR建筑三维重建新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

动态环境下的实时高清大规模三维地形重建研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于体素划分模型的多视图深度信息融合三维重建研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于草图语义部件的三维模型检索技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

复杂场景点线光流三维重建模型的建立及鲁棒性分析

国家自然科学基金

2+阅读 · 2014年12月31日

智能视频监控中图像超分辨率重建关键技术研究

国家自然科学基金

4+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

融合机载与车载点云的建筑物群快速三维重建方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

RefineFormer3D: Efficient 3D Medical Image Segmentation via Adaptive Multi-Scale Transformer with Cross Attention Fusion

Arxiv

0+阅读 · 2月18日

TTSA3R: Training-Free Temporal-Spatial Adaptive Persistent State for Streaming 3D Reconstruction

Arxiv

0+阅读 · 2月17日

Flow4R: Unifying 4D Reconstruction and Tracking with Scene Flow

Arxiv

0+阅读 · 2月15日

Robo3R: Enhancing Robotic Manipulation with Accurate Feed-Forward 3D Reconstruction

Arxiv

0+阅读 · 2月10日

Modulate and Reconstruct: Learning Hyperspectral Imaging from Misaligned Smartphone Views

Arxiv

0+阅读 · 2月9日

Efficient Scene Modeling via Structure-Aware and Region-Prioritized 3D Gaussians

Arxiv

0+阅读 · 2月5日

EAG3R: Event-Augmented 3D Geometry Estimation for Dynamic and Extreme-Lighting Scenes

Arxiv

0+阅读 · 2月4日

Hand3R: Online 4D Hand-Scene Reconstruction in the Wild

Arxiv

0+阅读 · 2月3日

TTSA3R: Training-Free Temporal-Spatial Adaptive Persistent State for Streaming 3D Reconstruction

Arxiv

0+阅读 · 1月30日

Joint Learning of Depth, Pose, and Local Radiance Field for Large Scale Monocular 3D Reconstruction

Arxiv

0+阅读 · 1月29日

VIP会员

文章信息

相关主题

相关VIP内容

一种基于视觉算法生成三维场景重建的多任务系统 | 2025最新200页

一种基于视觉算法生成三维场景重建的多任务系统 | 2025最新200页

专知会员服务

22+阅读 · 2025年10月20日

深度学习的多视角三维重建技术综述

深度学习的多视角三维重建技术综述

专知会员服务

20+阅读 · 2025年6月7日

【剑桥博士论文】基于图像的三维重建：神经隐式表示的可微渲染方法

【剑桥博士论文】基于图像的三维重建：神经隐式表示的可微渲染方法

专知会员服务

18+阅读 · 2025年6月5日

非刚性场景三维重建的最新趋势：最新技术

非刚性场景三维重建的最新趋势：最新技术

专知会员服务

19+阅读 · 2024年5月16日

【CMU博士论文】稀疏视角三维重建，147页pdf

【CMU博士论文】稀疏视角三维重建，147页pdf

专知会员服务

32+阅读 · 2024年5月16日

【CMU博士论文】开放环境视频中的多人三维重建，184页pdf

【CMU博士论文】开放环境视频中的多人三维重建，184页pdf

专知会员服务

34+阅读 · 2023年10月11日

深度学习背景下的图像三维重建技术进展综述

深度学习背景下的图像三维重建技术进展综述

专知会员服务

38+阅读 · 2023年9月4日

南大清华发布《从单目图像中恢复三维人体网格》综述论文，涵盖246篇文献全年阐述单目3D人体网格恢复研究进展

南大清华发布《从单目图像中恢复三维人体网格》综述论文，涵盖246篇文献全年阐述单目3D人体网格恢复研究进展

专知会员服务

33+阅读 · 2022年3月21日

Swin Transformer重磅升级！Swin V2：向更大容量、更高分辨率的更大模型迈进

Swin Transformer重磅升级！Swin V2：向更大容量、更高分辨率的更大模型迈进

专知会员服务

28+阅读 · 2021年11月20日

基于图像的大规模室外三维重建技术进展综述

专知会员服务

56+阅读 · 2021年4月4日

热门VIP内容

开通专知VIP会员享更多权益服务

《可信人工智能赋能系统的支柱》

《从经典神经网络到不确定性下的拓扑神经网络：军事应用》2026最新40页报告

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

《人工智能：对战略与力量的影响》slides

相关资讯

三维重建 3D reconstruction 有哪些实用算法？

三维重建 3D reconstruction 有哪些实用算法？

极市平台

13+阅读 · 2020年2月23日

【华南理工大学ICCV-CVPR2019】基于单一的RGB图像的拓扑感知的三维物体重建

【华南理工大学ICCV-CVPR2019】基于单一的RGB图像的拓扑感知的三维物体重建

专知

18+阅读 · 2020年1月15日

计算机视觉方向简介 | 三维重建技术概述

计算机视觉方向简介 | 三维重建技术概述

计算机视觉life

26+阅读 · 2019年6月13日

计算机视觉方向简介 | 基于单目视觉的三维重建算法

计算机视觉方向简介 | 基于单目视觉的三维重建算法

计算机视觉life

32+阅读 · 2019年4月9日

三维感知与三维数据分析最新进展 - 3D传感&人工智能前沿科技论坛

三维感知与三维数据分析最新进展 - 3D传感&人工智能前沿科技论坛

AI科技评论

10+阅读 · 2019年2月2日

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

计算机视觉life

19+阅读 · 2018年12月27日

计算机视觉方向简介 | 深度相机室内实时稠密三维重建

计算机视觉方向简介 | 深度相机室内实时稠密三维重建

计算机视觉life

17+阅读 · 2018年5月23日

【泡泡一分钟】基于多视图卷积网络的草图三维重建技术(3dv-66)

【泡泡一分钟】基于多视图卷积网络的草图三维重建技术(3dv-66)

泡泡机器人SLAM

11+阅读 · 2018年3月31日

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（下）

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（下）

AI科技评论

13+阅读 · 2017年11月13日

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（上）

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（上）

AI科技评论

10+阅读 · 2017年11月12日

相关论文

RefineFormer3D: Efficient 3D Medical Image Segmentation via Adaptive Multi-Scale Transformer with Cross Attention Fusion

Arxiv

0+阅读 · 2月18日

TTSA3R: Training-Free Temporal-Spatial Adaptive Persistent State for Streaming 3D Reconstruction

Arxiv

0+阅读 · 2月17日

Flow4R: Unifying 4D Reconstruction and Tracking with Scene Flow

Arxiv

0+阅读 · 2月15日

Robo3R: Enhancing Robotic Manipulation with Accurate Feed-Forward 3D Reconstruction

Arxiv

0+阅读 · 2月10日

Modulate and Reconstruct: Learning Hyperspectral Imaging from Misaligned Smartphone Views

Arxiv

0+阅读 · 2月9日

Efficient Scene Modeling via Structure-Aware and Region-Prioritized 3D Gaussians

Arxiv

0+阅读 · 2月5日

EAG3R: Event-Augmented 3D Geometry Estimation for Dynamic and Extreme-Lighting Scenes

Arxiv

0+阅读 · 2月4日

Hand3R: Online 4D Hand-Scene Reconstruction in the Wild

Arxiv

0+阅读 · 2月3日

TTSA3R: Training-Free Temporal-Spatial Adaptive Persistent State for Streaming 3D Reconstruction

Arxiv

0+阅读 · 1月30日

Joint Learning of Depth, Pose, and Local Radiance Field for Large Scale Monocular 3D Reconstruction

Arxiv

0+阅读 · 1月29日

相关基金

基于散射点密度信息熵的层析SAR建筑三维重建新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

动态环境下的实时高清大规模三维地形重建研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于体素划分模型的多视图深度信息融合三维重建研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于草图语义部件的三维模型检索技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

复杂场景点线光流三维重建模型的建立及鲁棒性分析

国家自然科学基金

2+阅读 · 2014年12月31日

智能视频监控中图像超分辨率重建关键技术研究

国家自然科学基金

4+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

融合机载与车载点云的建筑物群快速三维重建方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员