MapAnything: Universal Feed-Forward Metric 3D Reconstruction - 专知论文

会员服务 ·

0

前馈 · 度量 · 重建 · 三维重建 · 多视图 ·

MapAnything: Universal Feed-Forward Metric 3D Reconstruction

翻译：MapAnything：通用前馈式度量三维重建

Nikhil Keetha,Norman Müller,Johannes Schönberger,Lorenzo Porzi,Yuchen Zhang,Tobias Fischer,Arno Knapitsch,Duncan Zauss,Ethan Weber,Nelson Antunes,Jonathon Luiten,Manuel Lopez-Antequera,Samuel Rota Bulò,Christian Richardt,Deva Ramanan,Sebastian Scherer,Peter Kontschieder

from arxiv, 3DV 2026. Project Page: https://map-anything.github.io/

We introduce MapAnything, a unified transformer-based feed-forward model that ingests one or more images along with optional geometric inputs such as camera intrinsics, poses, depth, or partial reconstructions, and then directly regresses the metric 3D scene geometry and cameras. MapAnything leverages a factored representation of multi-view scene geometry, i.e., a collection of depth maps, local ray maps, camera poses, and a metric scale factor that effectively upgrades local reconstructions into a globally consistent metric frame. Standardizing the supervision and training across diverse datasets, along with flexible input augmentation, enables MapAnything to address a broad range of 3D vision tasks in a single feed-forward pass, including uncalibrated structure-from-motion, calibrated multi-view stereo, monocular depth estimation, camera localization, depth completion, and more. We provide extensive experimental analyses and model ablations demonstrating that MapAnything outperforms or matches specialist feed-forward models while offering more efficient joint training behavior, thus paving the way toward a universal 3D reconstruction backbone.

翻译：我们提出MapAnything，一种基于Transformer的统一前馈模型，该模型接收单张或多张图像以及可选的几何输入（如相机内参、位姿、深度或部分重建结果），并直接回归出度量化的三维场景几何与相机参数。MapAnything采用多视图场景几何的分解式表示，即一组深度图、局部射线图、相机位姿以及一个度量尺度因子，从而有效地将局部重建升级至全局一致的度量坐标系。通过对多样化数据集进行标准化监督训练，并结合灵活的输入增强，MapAnything能够在单次前馈推理中处理广泛的三维视觉任务，包括未标定的运动恢复结构、已标定的多视图立体视觉、单目深度估计、相机定位、深度补全等。我们提供了广泛的实验分析与模型消融研究，结果表明MapAnything在性能上优于或匹配专用前馈模型，同时展现出更高效的联合训练特性，从而为构建通用三维重建主干网络开辟了道路。

0

相关内容

深度学习背景下的图像三维重建技术进展综述

深度学习背景下的图像三维重建技术进展综述

专知会员服务

39+阅读 · 2023年9月4日

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

专知会员服务

39+阅读 · 2022年8月9日

南京大学医学院最新《Transformer医学图像处理应用》综述论文，涵盖120多种Transformers方法及在医疗临床应用

南京大学医学院最新《Transformer医学图像处理应用》综述论文，涵盖120多种Transformers方法及在医疗临床应用

专知会员服务

124+阅读 · 2022年3月4日

【牛津大学BoYang博士论文】学习重建和分割三维物体，143页pdf

【牛津大学BoYang博士论文】学习重建和分割三维物体，143页pdf

专知会员服务

68+阅读 · 2020年11月9日

Google 发布图片配对基准及挑战：从系列图像重建三维物体和建筑物

Google 发布图片配对基准及挑战：从系列图像重建三维物体和建筑物

专知会员服务

40+阅读 · 2020年4月4日

深度学习生物图像重建综述，Deep Learning for Biomedical Image Reconstruction: A Survey

深度学习生物图像重建综述，Deep Learning for Biomedical Image Reconstruction: A Survey

专知会员服务

40+阅读 · 2020年3月2日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

【厦门大学】综述：深度学习3D点云分割，Review: deep learning on 3D point clouds

【厦门大学】综述：深度学习3D点云分割，Review: deep learning on 3D point clouds

专知会员服务

71+阅读 · 2020年1月22日

【报告推荐】三维及超形体分析中的几何与数据学习（Geometry and Learning from Data in 3D and Beyond - Shape Analysis）

【报告推荐】三维及超形体分析中的几何与数据学习（Geometry and Learning from Data in 3D and Beyond - Shape Analysis）

专知会员服务

23+阅读 · 2019年11月10日

【ICCV 2019 Tutorial】Holistic 3D Reconstruction: Learning to Reconstruct Holistic 3D Structures from Sensorial Data（整体3D重建：学习从感官数据重建整体3D结构），宾夕法尼亚州立大学 Zihan Zhou，西蒙弗雷泽大学计算机科学系 Yasutaka Furukawa，UCB 马毅

【ICCV 2019 Tutorial】Holistic 3D Reconstruction: Learning to Reconstruct Holistic 3D Structures from Sensorial Data（整体3D重建：学习从感官数据重建整体3D结构），宾夕法尼亚州立大学 Zihan Zhou，西蒙弗雷泽大学计算机科学系 Yasutaka Furukawa，UCB 马毅

专知会员服务

29+阅读 · 2019年10月31日

三维重建 3D reconstruction 有哪些实用算法？

三维重建 3D reconstruction 有哪些实用算法？

极市平台

13+阅读 · 2020年2月23日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

计算机视觉方向简介 | 三维重建技术概述

计算机视觉方向简介 | 三维重建技术概述

计算机视觉life

26+阅读 · 2019年6月13日

【泡泡点云时空】DeepMapping: 来自多重点云的无监督地图估计

【泡泡点云时空】DeepMapping: 来自多重点云的无监督地图估计

泡泡机器人SLAM

29+阅读 · 2019年5月29日

使用双目相机进行三维重建第二部分：姿态估计

使用双目相机进行三维重建第二部分：姿态估计

AI研习社

12+阅读 · 2019年5月7日

SkeletonNet：完整的人体三维位姿重建方法

SkeletonNet：完整的人体三维位姿重建方法

计算机视觉life

21+阅读 · 2019年1月21日

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

计算机视觉life

19+阅读 · 2018年12月27日

【泡泡图灵智库】MapNet：一种便于动态更新的全局地图存储方法（CVPR）

【泡泡图灵智库】MapNet：一种便于动态更新的全局地图存储方法（CVPR）

泡泡机器人SLAM

11+阅读 · 2018年12月10日

Maplab：研究视觉惯性建图和定位的开源框架

Maplab：研究视觉惯性建图和定位的开源框架

泡泡机器人SLAM

16+阅读 · 2018年4月4日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

基于散射点密度信息熵的层析SAR建筑三维重建新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

动态环境下的实时高清大规模三维地形重建研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于体素划分模型的多视图深度信息融合三维重建研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于形状信息和结果反馈的多图谱图像分割方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于张量的高维多通道图像压缩感知重建理论与算法及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

地面激光雷达与设计数据正逆向结合的建筑物三维重建技术

国家自然科学基金

0+阅读 · 2015年12月31日

图像复原中非凸稀疏优化问题的快速算法

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

复杂场景点线光流三维重建模型的建立及鲁棒性分析

国家自然科学基金

2+阅读 · 2014年12月31日

融合机载与车载点云的建筑物群快速三维重建方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

RefineFormer3D: Efficient 3D Medical Image Segmentation via Adaptive Multi-Scale Transformer with Cross Attention Fusion

Arxiv

0+阅读 · 2月18日

GeoFusionLRM: Geometry-Aware Self-Correction for Consistent 3D Reconstruction

Arxiv

0+阅读 · 2月15日

MapFormer: Self-Supervised Learning of Cognitive Maps with Input-Dependent Positional Embeddings

Arxiv

0+阅读 · 2月6日

EventNeuS: 3D Mesh Reconstruction from a Single Event Camera

Arxiv

0+阅读 · 2月3日

VersaQ-3D: A Reconfigurable Accelerator Enabling Feed-Forward and Generalizable 3D Reconstruction via Versatile Quantization

Arxiv

0+阅读 · 1月28日

FLARE: Feed-forward Geometry, Appearance and Camera Estimation from Uncalibrated Sparse Views

Arxiv

0+阅读 · 1月25日

360Anything: Geometry-Free Lifting of Images and Videos to 360°

Arxiv

0+阅读 · 1月22日

Motion 3-to-4: 3D Motion Reconstruction for 4D Synthesis

Arxiv

0+阅读 · 1月20日

V-DPM: 4D Video Reconstruction with Dynamic Point Maps

Arxiv

0+阅读 · 1月14日

UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction

UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction

Arxiv

11+阅读 · 2018年12月6日

VIP会员

文章信息

相关主题

最新内容

马赛克战：俄乌战场透析

马赛克战：俄乌战场透析

专知会员服务

3+阅读 · 今天4:12

《利用人工智能增强军事决策》

《利用人工智能增强军事决策》

专知会员服务

0+阅读 · 今天4:09

《自动机器学习在军事数据耕耘法中的应用》

《自动机器学习在军事数据耕耘法中的应用》

专知会员服务

1+阅读 · 今天4:02

为何指挥所生存能力要求范式转变

为何指挥所生存能力要求范式转变

专知会员服务

0+阅读 · 今天3:54

打造“新蛛网”模式与高科技动员

打造“新蛛网”模式与高科技动员

专知会员服务

0+阅读 · 今天3:33

“蛛网”行动一周年：远程无人机战争

“蛛网”行动一周年：远程无人机战争

专知会员服务

0+阅读 · 今天3:23

加沙、乌克兰和伊朗冲突：人工智能如何改变冲突

加沙、乌克兰和伊朗冲突：人工智能如何改变冲突

专知会员服务

1+阅读 · 今天3:15

为何“第一次人工智能战争（美以伊冲突）”仍是人类主导的斗争

为何“第一次人工智能战争（美以伊冲突）”仍是人类主导的斗争

专知会员服务

0+阅读 · 今天3:09

【剑桥博士论文】智能体-环境协同优化

【剑桥博士论文】智能体-环境协同优化

专知会员服务

5+阅读 · 6月9日

ACL 2026综述｜多模态基础模型测试时扩展：生成与推理统一框架

ACL 2026综述｜多模态基础模型测试时扩展：生成与推理统一框架

专知会员服务

3+阅读 · 6月9日

《面向国防应用的无人机选型：一种对比性多模糊多准则决策框架》

《面向国防应用的无人机选型：一种对比性多模糊多准则决策框架》

专知会员服务

10+阅读 · 6月9日

无人机战争：从乌克兰到中东战场的沙希德（Shahed）无人机分析

无人机战争：从乌克兰到中东战场的沙希德（Shahed）无人机分析

专知会员服务

7+阅读 · 6月9日

为初级军官战术训练设计生成式人工智能平台

为初级军官战术训练设计生成式人工智能平台

专知会员服务

8+阅读 · 6月9日

《美空军条令出版物 3-40，反大规模杀伤性武器作战》

《美空军条令出版物 3-40，反大规模杀伤性武器作战》

专知会员服务

8+阅读 · 6月9日

《美军条令：作战伤员后送保障》

《美军条令：作战伤员后送保障》

专知会员服务

6+阅读 · 6月9日

相关VIP内容

深度学习背景下的图像三维重建技术进展综述

深度学习背景下的图像三维重建技术进展综述

专知会员服务

39+阅读 · 2023年9月4日

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

专知会员服务

39+阅读 · 2022年8月9日

南京大学医学院最新《Transformer医学图像处理应用》综述论文，涵盖120多种Transformers方法及在医疗临床应用

南京大学医学院最新《Transformer医学图像处理应用》综述论文，涵盖120多种Transformers方法及在医疗临床应用

专知会员服务

124+阅读 · 2022年3月4日

【牛津大学BoYang博士论文】学习重建和分割三维物体，143页pdf

【牛津大学BoYang博士论文】学习重建和分割三维物体，143页pdf

专知会员服务

68+阅读 · 2020年11月9日

Google 发布图片配对基准及挑战：从系列图像重建三维物体和建筑物

Google 发布图片配对基准及挑战：从系列图像重建三维物体和建筑物

专知会员服务

40+阅读 · 2020年4月4日

深度学习生物图像重建综述，Deep Learning for Biomedical Image Reconstruction: A Survey

深度学习生物图像重建综述，Deep Learning for Biomedical Image Reconstruction: A Survey

专知会员服务

40+阅读 · 2020年3月2日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

【厦门大学】综述：深度学习3D点云分割，Review: deep learning on 3D point clouds

【厦门大学】综述：深度学习3D点云分割，Review: deep learning on 3D point clouds

专知会员服务

71+阅读 · 2020年1月22日

【报告推荐】三维及超形体分析中的几何与数据学习（Geometry and Learning from Data in 3D and Beyond - Shape Analysis）

【报告推荐】三维及超形体分析中的几何与数据学习（Geometry and Learning from Data in 3D and Beyond - Shape Analysis）

专知会员服务

23+阅读 · 2019年11月10日

【ICCV 2019 Tutorial】Holistic 3D Reconstruction: Learning to Reconstruct Holistic 3D Structures from Sensorial Data（整体3D重建：学习从感官数据重建整体3D结构），宾夕法尼亚州立大学 Zihan Zhou，西蒙弗雷泽大学计算机科学系 Yasutaka Furukawa，UCB 马毅

【ICCV 2019 Tutorial】Holistic 3D Reconstruction: Learning to Reconstruct Holistic 3D Structures from Sensorial Data（整体3D重建：学习从感官数据重建整体3D结构），宾夕法尼亚州立大学 Zihan Zhou，西蒙弗雷泽大学计算机科学系 Yasutaka Furukawa，UCB 马毅

专知会员服务

29+阅读 · 2019年10月31日

热门VIP内容

开通专知VIP会员享更多权益服务

《利用人工智能增强军事决策》

为何指挥所生存能力要求范式转变

马赛克战：俄乌战场透析

《自动机器学习在军事数据耕耘法中的应用》

相关资讯

三维重建 3D reconstruction 有哪些实用算法？

三维重建 3D reconstruction 有哪些实用算法？

极市平台

13+阅读 · 2020年2月23日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

计算机视觉方向简介 | 三维重建技术概述

计算机视觉方向简介 | 三维重建技术概述

计算机视觉life

26+阅读 · 2019年6月13日

【泡泡点云时空】DeepMapping: 来自多重点云的无监督地图估计

【泡泡点云时空】DeepMapping: 来自多重点云的无监督地图估计

泡泡机器人SLAM

29+阅读 · 2019年5月29日

使用双目相机进行三维重建第二部分：姿态估计

使用双目相机进行三维重建第二部分：姿态估计

AI研习社

12+阅读 · 2019年5月7日

SkeletonNet：完整的人体三维位姿重建方法

SkeletonNet：完整的人体三维位姿重建方法

计算机视觉life

21+阅读 · 2019年1月21日

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

计算机视觉life

19+阅读 · 2018年12月27日

【泡泡图灵智库】MapNet：一种便于动态更新的全局地图存储方法（CVPR）

【泡泡图灵智库】MapNet：一种便于动态更新的全局地图存储方法（CVPR）

泡泡机器人SLAM

11+阅读 · 2018年12月10日

Maplab：研究视觉惯性建图和定位的开源框架

Maplab：研究视觉惯性建图和定位的开源框架

泡泡机器人SLAM

16+阅读 · 2018年4月4日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

相关论文

RefineFormer3D: Efficient 3D Medical Image Segmentation via Adaptive Multi-Scale Transformer with Cross Attention Fusion

Arxiv

0+阅读 · 2月18日

GeoFusionLRM: Geometry-Aware Self-Correction for Consistent 3D Reconstruction

Arxiv

0+阅读 · 2月15日

MapFormer: Self-Supervised Learning of Cognitive Maps with Input-Dependent Positional Embeddings

Arxiv

0+阅读 · 2月6日

EventNeuS: 3D Mesh Reconstruction from a Single Event Camera

Arxiv

0+阅读 · 2月3日

VersaQ-3D: A Reconfigurable Accelerator Enabling Feed-Forward and Generalizable 3D Reconstruction via Versatile Quantization

Arxiv

0+阅读 · 1月28日

FLARE: Feed-forward Geometry, Appearance and Camera Estimation from Uncalibrated Sparse Views

Arxiv

0+阅读 · 1月25日

360Anything: Geometry-Free Lifting of Images and Videos to 360°

Arxiv

0+阅读 · 1月22日

Motion 3-to-4: 3D Motion Reconstruction for 4D Synthesis

Arxiv

0+阅读 · 1月20日

V-DPM: 4D Video Reconstruction with Dynamic Point Maps

Arxiv

0+阅读 · 1月14日

UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction

UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction

Arxiv

11+阅读 · 2018年12月6日

相关基金

基于散射点密度信息熵的层析SAR建筑三维重建新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

动态环境下的实时高清大规模三维地形重建研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于体素划分模型的多视图深度信息融合三维重建研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于形状信息和结果反馈的多图谱图像分割方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于张量的高维多通道图像压缩感知重建理论与算法及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

地面激光雷达与设计数据正逆向结合的建筑物三维重建技术

国家自然科学基金

0+阅读 · 2015年12月31日

图像复原中非凸稀疏优化问题的快速算法

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

复杂场景点线光流三维重建模型的建立及鲁棒性分析

国家自然科学基金

2+阅读 · 2014年12月31日

融合机载与车载点云的建筑物群快速三维重建方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员