3D spatial perception is fundamental to generalizable robotic manipulation, yet obtaining reliable, high-quality 3D geometry remains challenging. Depth sensors suffer from noise and material sensitivity, while existing reconstruction models lack the precision and metric consistency required for physical interaction. We introduce Robo3R, a feed-forward, manipulation-ready 3D reconstruction model that predicts accurate, metric-scale scene geometry directly from RGB images and robot states in real time. Robo3R jointly infers scale-invariant local geometry and relative camera poses, which are unified into the scene representation in the canonical robot frame via a learned global similarity transformation. To meet the precision demands of manipulation, Robo3R employs a masked point head for sharp, fine-grained point clouds, and a keypoint-based Perspective-n-Point (PnP) formulation to refine camera extrinsics and global alignment. Trained on Robo3R-4M, a curated large-scale synthetic dataset with four million high-fidelity annotated frames, Robo3R consistently outperforms state-of-the-art reconstruction methods and depth sensors. Across downstream tasks including imitation learning, sim-to-real transfer, grasp synthesis, and collision-free motion planning, we observe consistent gains in performance, suggesting the promise of this alternative 3D sensing module for robotic manipulation.


翻译:三维空间感知是实现可泛化机器人操作的基础,然而获取可靠、高质量的三维几何信息仍具挑战性。深度传感器受噪声和材料敏感性影响,而现有重建模型缺乏物理交互所需的精度与度量一致性。我们提出Robo3R——一种前馈式、即插即用的三维重建模型,能够直接从RGB图像和机器人状态实时预测精确的度量级场景几何。Robo3R联合推断尺度不变的局部几何与相对相机位姿,并通过学习的全局相似变换将其统一到规范机器人坐标系下的场景表示中。为满足操作任务对精度的要求,Robo3R采用掩码点云头部生成锐利细粒度点云,并基于关键点的透视n点(PnP)公式优化相机外参与全局对齐。通过在Robo3R-4M数据集(包含四百万帧高保真标注帧的精选大规模合成数据集)上进行训练,Robo3R在各项指标上持续超越最先进的重建方法与深度传感器。在模仿学习、仿真到现实迁移、抓取合成及无碰撞运动规划等下游任务中,我们观察到性能的持续提升,这预示着该替代性三维感知模块在机器人操作领域的应用前景。

0
下载
关闭预览

相关内容

前馈式三维场景建模
专知会员服务
8+阅读 · 4月17日
深度学习的多视角三维重建技术综述
专知会员服务
21+阅读 · 2025年6月7日
Robotaxi的商业模式前景展望
专知会员服务
17+阅读 · 2024年9月21日
人形机器人深度:产业化渐行渐近,未来前景广阔
专知会员服务
39+阅读 · 2024年7月17日
专知会员服务
66+阅读 · 2021年4月22日
三维重建 3D reconstruction 有哪些实用算法?
极市平台
13+阅读 · 2020年2月23日
计算机视觉方向简介 | 三维重建技术概述
计算机视觉life
26+阅读 · 2019年6月13日
SkeletonNet:完整的人体三维位姿重建方法
计算机视觉life
21+阅读 · 2019年1月21日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
最新内容
人工智能赋能无人机:俄乌战争(万字长文)
专知会员服务
0+阅读 · 13分钟前
国外海军作战管理系统与作战训练系统
专知会员服务
0+阅读 · 今天4:16
美军条令《海军陆战队规划流程(2026版)》
专知会员服务
6+阅读 · 今天3:36
《压缩式分布式交互仿真标准》120页
专知会员服务
3+阅读 · 今天3:21
《电子战数据交换模型研究报告》
专知会员服务
5+阅读 · 今天3:13
《基于Transformer的异常舰船导航识别与跟踪》80页
《低数据领域军事目标检测模型研究》
专知会员服务
4+阅读 · 今天2:37
【CMU博士论文】物理世界的视觉感知与深度理解
伊朗战争停火期间美军关键弹药状况分析
专知会员服务
8+阅读 · 4月22日
电子战革命:塑造战场的十年突破(2015–2025)
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员