Robotic grasping is a fundamental capability in robotic manipulation. Yet grasping remains challenging under partial observations. Reliable grasping depends on both local contact cues and object-level 3D structure. Existing geometry-aware grasping methods recognize the value of reconstruction, but they typically treat geometry as an intermediate prediction rather than a reusable object prior for grasping. In this paper, we present GraspFoM, a unified framework that leverages 3D foundation priors (SAM3D) to build a shared 3D object latent for both reconstruction and grasp pose prediction. Built on this shared object latent, we introduce an anchor-initialized truncated pose-reasoning diffuser that predicts continuous and multimodal grasp poses without directly relying on discrete grasp candidates. We further investigate the interaction between reconstruction and grasping through a reconstruction-aware scorer and a residual latent updater. Reconstruction provides grounded geometric cues, while grasp supervision refines the shared object latent toward grasp-relevant affordances. GraspFoM jointly predicts grasp poses and reconstructs high-fidelity 3D assets in mesh and 3DGS forms. Comprehensive experiments demonstrate that GraspFoM achieves state-of-the-art results on both reconstruction and grasping. Notably, these improvements require only a small number of additional trainable parameters. Component-wise ablation studies also demonstrate the contribution of each component.


翻译:机器人抓取是机器人操作中的一项基础能力。然而,在部分观测条件下,抓取仍具有挑战性。可靠的抓取既依赖局部接触线索,也依赖物体级的三维结构。现有几何感知抓取方法虽认识到重建的价值,但通常将几何视为中间预测,而非可复用的物体先验。本文提出 GraspFoM 统一框架,利用三维基础先验(SAM3D)构建共享的三维物体隐空间,同时服务于重建与抓取姿态预测。基于该共享隐空间,我们引入锚点初始化的截断位姿推理扩散器,以预测连续且多模态的抓取姿态,无需直接依赖离散抓取候选。进一步,通过重建感知评分器与残差隐空间更新器,探究重建与抓取间的交互机制:重建提供有据可依的几何线索,而抓取监督引导共享隐空间向抓取相关功能区域精化。GraspFoM 可联合预测抓取姿态并重建高保真的网格与三维高斯泼溅形式的三维资产。综合实验表明,GraspFoM 在重建与抓取任务中均取得最优结果。值得注意的是,这些提升仅需少量额外可训练参数。组件消融实验亦验证了各组件的贡献。

0
下载
关闭预览

相关内容

【伯克利博士论文】开放世界机器人之基础模型路径
专知会员服务
37+阅读 · 2024年8月13日
【伯克利博士论文】机器人机械搜索的操作与感知策略
专知会员服务
16+阅读 · 2022年6月4日
【NeurIPS 2020】一种端到端全自由度抓取姿态估计网络简介
专知会员服务
20+阅读 · 2020年10月18日
计算机视觉方向简介 | 三维重建技术概述
计算机视觉life
26+阅读 · 2019年6月13日
SkeletonNet:完整的人体三维位姿重建方法
计算机视觉life
21+阅读 · 2019年1月21日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
9+阅读 · 6月15日
相关基金
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员