基于掩码深度建模的空间感知方法 (Masked Depth Modeling for Spatial Perception) - 专知论文

会员服务 ·

0

掩码 · 空间感知 · RGB-D · 对齐 · 操作 ·

Masked Depth Modeling for Spatial Perception

翻译：基于掩码深度建模的空间感知方法

Bin Tan,Changjiang Sun,Xiage Qin,Hanat Adai,Zelin Fu,Tianxiang Zhou,Han Zhang,Yinghao Xu,Xing Zhu,Yujun Shen,Nan Xue

from arxiv, Tech report, 19 pages, 15 figures and 4 tables

Spatial visual perception is a fundamental requirement in physical-world applications like autonomous driving and robotic manipulation, driven by the need to interact with 3D environments. Capturing pixel-aligned metric depth using RGB-D cameras would be the most viable way, yet it usually faces obstacles posed by hardware limitations and challenging imaging conditions, especially in the presence of specular or texture-less surfaces. In this work, we argue that the inaccuracies from depth sensors can be viewed as "masked" signals that inherently reflect underlying geometric ambiguities. Building on this motivation, we present LingBot-Depth, a depth completion model which leverages visual context to refine depth maps through masked depth modeling and incorporates an automated data curation pipeline for scalable training. It is encouraging to see that our model outperforms top-tier RGB-D cameras in terms of both depth precision and pixel coverage. Experimental results on a range of downstream tasks further suggest that LingBot-Depth offers an aligned latent representation across RGB and depth modalities. We release the code, checkpoint, and 3M RGB-depth pairs (including 2M real data and 1M simulated data) to the community of spatial perception.

翻译：空间视觉感知是自动驾驶与机器人操作等物理世界应用中的基本需求，其核心在于与三维环境的交互。使用RGB-D相机获取像素对齐的度量深度本是最可行的途径，但该方法常受硬件限制与复杂成像条件（尤其在镜面或缺乏纹理的表面）的制约。本研究提出，深度传感器的误差可视为反映底层几何模糊性的“掩码”信号。基于此动机，我们提出LingBot-Depth——一种通过掩码深度建模、利用视觉上下文优化深度图的深度补全模型，并集成了可扩展训练的自适应数据筛选流程。令人鼓舞的是，该模型在深度精度与像素覆盖率方面均优于顶级RGB-D相机。一系列下游任务的实验结果表明，LingBot-Depth能够提供跨RGB与深度模态的对齐隐式表征。我们向空间感知研究社区公开了代码、模型检查点及300万组RGB-深度数据对（含200万真实数据与100万模拟数据）。

0

相关内容

迈向深度基础模型：基于视觉的深度估计最新趋势

迈向深度基础模型：基于视觉的深度估计最新趋势

专知会员服务

23+阅读 · 2025年7月16日

【HKUST博士论文】可扩展的基于视觉的 3D 物体检测与单目深度估计用于自动驾驶

【HKUST博士论文】可扩展的基于视觉的 3D 物体检测与单目深度估计用于自动驾驶

专知会员服务

18+阅读 · 2025年1月20日

【牛津大学博士论文】深度概率方法用于改进雷达传感器建模和姿态估计

【牛津大学博士论文】深度概率方法用于改进雷达传感器建模和姿态估计

专知会员服务

44+阅读 · 2023年8月2日

《探索基于深度学习的机器人感知技术，用于在户外地形中导航》美空军研究实验室2022最新20页报告

《探索基于深度学习的机器人感知技术，用于在户外地形中导航》美空军研究实验室2022最新20页报告

专知会员服务

34+阅读 · 2022年12月12日

【含源代码】《用机器学习提高超视距空战中的态势感知能力》最新论文，巴西空军高级研究学院、卡内基梅隆大学机器人研究所

【含源代码】《用机器学习提高超视距空战中的态势感知能力》最新论文，巴西空军高级研究学院、卡内基梅隆大学机器人研究所

专知会员服务

117+阅读 · 2022年6月20日

深度图如何补全？深圳AIRS等最新《基于深度学习的深度图补全》综述，全面调研最近5年深度图补全方法体系与技术趋势

深度图如何补全？深圳AIRS等最新《基于深度学习的深度图补全》综述，全面调研最近5年深度图补全方法体系与技术趋势

专知会员服务

23+阅读 · 2022年5月20日

【CVPR 2022】基于实例深度估计的统一深度感知全景分割 PanopticDepth: Per-Instance Depth Estimation for Unified Depth-Aware Panoptic Segmentation

【CVPR 2022】基于实例深度估计的统一深度感知全景分割 PanopticDepth: Per-Instance Depth Estimation for Unified Depth-Aware Panoptic Segmentation

专知会员服务

18+阅读 · 2022年3月19日

【TPAMI2022】基于立体深度估计的深度学习技术综述，A Survey on Deep Learning Techniques for Stereo-based Depth Estimation

【TPAMI2022】基于立体深度估计的深度学习技术综述，A Survey on Deep Learning Techniques for Stereo-based Depth Estimation

专知会员服务

21+阅读 · 2022年3月10日

基于深度神经网络的高效视觉识别研究进展与新方向

基于深度神经网络的高效视觉识别研究进展与新方向

专知会员服务

40+阅读 · 2021年8月31日

【CVPR2021】基于跨任务场景结构知识迁移的单张深度图像超分辨率方法

专知会员服务

18+阅读 · 2021年3月23日

【干货书】基于深度学习的机器人感知与认知，638页pdf

【干货书】基于深度学习的机器人感知与认知，638页pdf

专知

19+阅读 · 2022年7月30日

基于虚拟现实环境的深度学习模型构建

基于虚拟现实环境的深度学习模型构建

MOOC

24+阅读 · 2019年9月28日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

GAN生成式对抗网络

14+阅读 · 2019年5月23日

深度学习在自动驾驶感知领域的应用

深度学习在自动驾驶感知领域的应用

AI100

11+阅读 · 2019年3月6日

深度学习时代的图模型，清华发文综述图网络

深度学习时代的图模型，清华发文综述图网络

GAN生成式对抗网络

13+阅读 · 2018年12月23日

每日论文 | CV中深度学习涉及到的几何和不确定性；用深度学习分析气象；可自动调整模拟器参数的模型

每日论文 | CV中深度学习涉及到的几何和不确定性；用深度学习分析气象；可自动调整模拟器参数的模型

论智

11+阅读 · 2018年10月9日

CVPR 2018 | 商汤科技Spotlight论文详解：单目深度估计技术

CVPR 2018 | 商汤科技Spotlight论文详解：单目深度估计技术

商汤科技

14+阅读 · 2018年6月2日

从传统方法到深度学习，人脸关键点检测方法综述

从传统方法到深度学习，人脸关键点检测方法综述

机器之心

14+阅读 · 2017年12月17日

深度相机原理揭秘--双目立体视觉

深度相机原理揭秘--双目立体视觉

计算机视觉life

10+阅读 · 2017年11月7日

智能感知空间中基于QoX的上下文不确定性建模和处理关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于深度卷积神经网络的多源遥感图像时空融合方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

基于深层特征学习的RGB-D人体行为识别方法

国家自然科学基金

4+阅读 · 2015年12月31日

基于数据挖掘和感知分析的非对称失真视觉质量评价模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于压缩感知的高精度实时视觉跟踪方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

基于视觉注意与眼动跟踪的地图认知计算模型与方法研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

Perspective-aware fusion of incomplete depth maps and surface normals for accurate 3D reconstruction

Arxiv

0+阅读 · 2月7日

SpatialViz-Bench: A Cognitively-Grounded Benchmark for Diagnosing Spatial Visualization in MLLMs

Arxiv

0+阅读 · 2月2日

Deep Models, Shallow Alignment: Uncovering the Granularity Mismatch in Neural Decoding

Arxiv

0+阅读 · 1月29日

Just Noticeable Difference Modeling for Deep Visual Features

Arxiv

0+阅读 · 1月29日

Virtual Reflections on a Dynamic 2D Eye Model Improve Spatial Reference Identification

Arxiv

0+阅读 · 1月29日

Instance-Guided Radar Depth Estimation for 3D Object Detection

Arxiv

0+阅读 · 1月27日

DeFM: Learning Foundation Representations from Depth for Robotics

Arxiv

0+阅读 · 1月26日

Depth to Anatomy: Learning Internal Organ Locations from Surface Depth Images

Arxiv

0+阅读 · 1月26日

Simulating Dual-Pixel Images From Ray Tracing For Depth Estimation

Arxiv

0+阅读 · 1月22日

GeoSurDepth: Harnessing Foundation Model for Spatial Geometry Consistency-Oriented Self-Supervised Surround-View Depth Estimation

Arxiv

0+阅读 · 1月20日

VIP会员

文章信息

相关主题

相关VIP内容

迈向深度基础模型：基于视觉的深度估计最新趋势

迈向深度基础模型：基于视觉的深度估计最新趋势

专知会员服务

23+阅读 · 2025年7月16日

【HKUST博士论文】可扩展的基于视觉的 3D 物体检测与单目深度估计用于自动驾驶

【HKUST博士论文】可扩展的基于视觉的 3D 物体检测与单目深度估计用于自动驾驶

专知会员服务

18+阅读 · 2025年1月20日

【牛津大学博士论文】深度概率方法用于改进雷达传感器建模和姿态估计

【牛津大学博士论文】深度概率方法用于改进雷达传感器建模和姿态估计

专知会员服务

44+阅读 · 2023年8月2日

《探索基于深度学习的机器人感知技术，用于在户外地形中导航》美空军研究实验室2022最新20页报告

《探索基于深度学习的机器人感知技术，用于在户外地形中导航》美空军研究实验室2022最新20页报告

专知会员服务

34+阅读 · 2022年12月12日

【含源代码】《用机器学习提高超视距空战中的态势感知能力》最新论文，巴西空军高级研究学院、卡内基梅隆大学机器人研究所

【含源代码】《用机器学习提高超视距空战中的态势感知能力》最新论文，巴西空军高级研究学院、卡内基梅隆大学机器人研究所

专知会员服务

117+阅读 · 2022年6月20日

深度图如何补全？深圳AIRS等最新《基于深度学习的深度图补全》综述，全面调研最近5年深度图补全方法体系与技术趋势

深度图如何补全？深圳AIRS等最新《基于深度学习的深度图补全》综述，全面调研最近5年深度图补全方法体系与技术趋势

专知会员服务

23+阅读 · 2022年5月20日

【CVPR 2022】基于实例深度估计的统一深度感知全景分割 PanopticDepth: Per-Instance Depth Estimation for Unified Depth-Aware Panoptic Segmentation

【CVPR 2022】基于实例深度估计的统一深度感知全景分割 PanopticDepth: Per-Instance Depth Estimation for Unified Depth-Aware Panoptic Segmentation

专知会员服务

18+阅读 · 2022年3月19日

【TPAMI2022】基于立体深度估计的深度学习技术综述，A Survey on Deep Learning Techniques for Stereo-based Depth Estimation

【TPAMI2022】基于立体深度估计的深度学习技术综述，A Survey on Deep Learning Techniques for Stereo-based Depth Estimation

专知会员服务

21+阅读 · 2022年3月10日

基于深度神经网络的高效视觉识别研究进展与新方向

基于深度神经网络的高效视觉识别研究进展与新方向

专知会员服务

40+阅读 · 2021年8月31日

【CVPR2021】基于跨任务场景结构知识迁移的单张深度图像超分辨率方法

专知会员服务

18+阅读 · 2021年3月23日

热门VIP内容

开通专知VIP会员享更多权益服务

《可信人工智能赋能系统的支柱》

《从经典神经网络到不确定性下的拓扑神经网络：军事应用》2026最新40页报告

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

《人工智能：对战略与力量的影响》slides

相关资讯

【干货书】基于深度学习的机器人感知与认知，638页pdf

【干货书】基于深度学习的机器人感知与认知，638页pdf

专知

19+阅读 · 2022年7月30日

基于虚拟现实环境的深度学习模型构建

基于虚拟现实环境的深度学习模型构建

MOOC

24+阅读 · 2019年9月28日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

GAN生成式对抗网络

14+阅读 · 2019年5月23日

深度学习在自动驾驶感知领域的应用

深度学习在自动驾驶感知领域的应用

AI100

11+阅读 · 2019年3月6日

深度学习时代的图模型，清华发文综述图网络

深度学习时代的图模型，清华发文综述图网络

GAN生成式对抗网络

13+阅读 · 2018年12月23日

每日论文 | CV中深度学习涉及到的几何和不确定性；用深度学习分析气象；可自动调整模拟器参数的模型

每日论文 | CV中深度学习涉及到的几何和不确定性；用深度学习分析气象；可自动调整模拟器参数的模型

论智

11+阅读 · 2018年10月9日

CVPR 2018 | 商汤科技Spotlight论文详解：单目深度估计技术

CVPR 2018 | 商汤科技Spotlight论文详解：单目深度估计技术

商汤科技

14+阅读 · 2018年6月2日

从传统方法到深度学习，人脸关键点检测方法综述

从传统方法到深度学习，人脸关键点检测方法综述

机器之心

14+阅读 · 2017年12月17日

深度相机原理揭秘--双目立体视觉

深度相机原理揭秘--双目立体视觉

计算机视觉life

10+阅读 · 2017年11月7日

相关论文

Perspective-aware fusion of incomplete depth maps and surface normals for accurate 3D reconstruction

Arxiv

0+阅读 · 2月7日

SpatialViz-Bench: A Cognitively-Grounded Benchmark for Diagnosing Spatial Visualization in MLLMs

Arxiv

0+阅读 · 2月2日

Deep Models, Shallow Alignment: Uncovering the Granularity Mismatch in Neural Decoding

Arxiv

0+阅读 · 1月29日

Just Noticeable Difference Modeling for Deep Visual Features

Arxiv

0+阅读 · 1月29日

Virtual Reflections on a Dynamic 2D Eye Model Improve Spatial Reference Identification

Arxiv

0+阅读 · 1月29日

Instance-Guided Radar Depth Estimation for 3D Object Detection

Arxiv

0+阅读 · 1月27日

DeFM: Learning Foundation Representations from Depth for Robotics

Arxiv

0+阅读 · 1月26日

Depth to Anatomy: Learning Internal Organ Locations from Surface Depth Images

Arxiv

0+阅读 · 1月26日

Simulating Dual-Pixel Images From Ray Tracing For Depth Estimation

Arxiv

0+阅读 · 1月22日

GeoSurDepth: Harnessing Foundation Model for Spatial Geometry Consistency-Oriented Self-Supervised Surround-View Depth Estimation

Arxiv

0+阅读 · 1月20日

相关基金

智能感知空间中基于QoX的上下文不确定性建模和处理关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于深度卷积神经网络的多源遥感图像时空融合方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

基于深层特征学习的RGB-D人体行为识别方法

国家自然科学基金

4+阅读 · 2015年12月31日

基于数据挖掘和感知分析的非对称失真视觉质量评价模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于压缩感知的高精度实时视觉跟踪方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

基于视觉注意与眼动跟踪的地图认知计算模型与方法研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员