GraspFoM: Towards Reconstruction-Driven Robotic Grasping with 3D Foundation Priors - 专知论文

会员服务 ·

0

重建 · 隐空间 · 机器人抓取 · 机器人 · 操作 ·

GraspFoM: Towards Reconstruction-Driven Robotic Grasping with 3D Foundation Priors

翻译：GraspFoM：基于三维基础先验的重建驱动机器人抓取方法

Dongli Wu,Xiaobao Wei,Hao Wang,Qiaochu Dong,Ying Li,Qingpo Wuwu,Ming Lu,Wufan Zhao

Robotic grasping is a fundamental capability in robotic manipulation. Yet grasping remains challenging under partial observations. Reliable grasping depends on both local contact cues and object-level 3D structure. Existing geometry-aware grasping methods recognize the value of reconstruction, but they typically treat geometry as an intermediate prediction rather than a reusable object prior for grasping. In this paper, we present GraspFoM, a unified framework that leverages 3D foundation priors (SAM3D) to build a shared 3D object latent for both reconstruction and grasp pose prediction. Built on this shared object latent, we introduce an anchor-initialized truncated pose-reasoning diffuser that predicts continuous and multimodal grasp poses without directly relying on discrete grasp candidates. We further investigate the interaction between reconstruction and grasping through a reconstruction-aware scorer and a residual latent updater. Reconstruction provides grounded geometric cues, while grasp supervision refines the shared object latent toward grasp-relevant affordances. GraspFoM jointly predicts grasp poses and reconstructs high-fidelity 3D assets in mesh and 3DGS forms. Comprehensive experiments demonstrate that GraspFoM achieves state-of-the-art results on both reconstruction and grasping. Notably, these improvements require only a small number of additional trainable parameters. Component-wise ablation studies also demonstrate the contribution of each component.

翻译：机器人抓取是机器人操作中的一项基础能力。然而，在部分观测条件下，抓取仍具有挑战性。可靠的抓取既依赖局部接触线索，也依赖物体级的三维结构。现有几何感知抓取方法虽认识到重建的价值，但通常将几何视为中间预测，而非可复用的物体先验。本文提出 GraspFoM 统一框架，利用三维基础先验（SAM3D）构建共享的三维物体隐空间，同时服务于重建与抓取姿态预测。基于该共享隐空间，我们引入锚点初始化的截断位姿推理扩散器，以预测连续且多模态的抓取姿态，无需直接依赖离散抓取候选。进一步，通过重建感知评分器与残差隐空间更新器，探究重建与抓取间的交互机制：重建提供有据可依的几何线索，而抓取监督引导共享隐空间向抓取相关功能区域精化。GraspFoM 可联合预测抓取姿态并重建高保真的网格与三维高斯泼溅形式的三维资产。综合实验表明，GraspFoM 在重建与抓取任务中均取得最优结果。值得注意的是，这些提升仅需少量额外可训练参数。组件消融实验亦验证了各组件的贡献。

0

相关内容

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

【伯克利博士论文】《通向开放世界机器人的基础模型路径》，237页pdf

【伯克利博士论文】《通向开放世界机器人的基础模型路径》，237页pdf

专知会员服务

30+阅读 · 2024年8月31日

【伯克利博士论文】开放世界机器人之基础模型路径

【伯克利博士论文】开放世界机器人之基础模型路径

专知会员服务

37+阅读 · 2024年8月13日

【牛津大学博士论文】面向对象的生成模型在机器人感知与行动中的应用，148页pdf

【牛津大学博士论文】面向对象的生成模型在机器人感知与行动中的应用，148页pdf

专知会员服务

22+阅读 · 2024年2月13日

【CoRL2023】GNFactor:可泛化神经特征场的多任务真实机器人学习，17页pdf

【CoRL2023】GNFactor:可泛化神经特征场的多任务真实机器人学习，17页pdf

专知会员服务

20+阅读 · 2023年9月3日

【机器人自主导航】《移动与机动人工智能（AIMM）世界模型进展报告：路线侦察中的空间概念》美陆军25页技术报告

【机器人自主导航】《移动与机动人工智能（AIMM）世界模型进展报告：路线侦察中的空间概念》美陆军25页技术报告

专知会员服务

65+阅读 · 2022年12月18日

【伯克利博士论文】机器人机械搜索的操作与感知策略

【伯克利博士论文】机器人机械搜索的操作与感知策略

专知会员服务

16+阅读 · 2022年6月4日

【牛津大学BoYang博士论文】学习重建和分割三维物体，143页pdf

【牛津大学BoYang博士论文】学习重建和分割三维物体，143页pdf

专知会员服务

68+阅读 · 2020年11月9日

【NeurIPS 2020】一种端到端全自由度抓取姿态估计网络简介

【NeurIPS 2020】一种端到端全自由度抓取姿态估计网络简介

专知会员服务

20+阅读 · 2020年10月18日

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

专知会员服务

123+阅读 · 2020年5月18日

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

专知

10+阅读 · 2023年4月12日

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

专知

12+阅读 · 2023年4月4日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

【2020新书】图机器学习，Graph-Powered Machine Learning

【2020新书】图机器学习，Graph-Powered Machine Learning

专知

76+阅读 · 2020年1月27日

计算机视觉方向简介 | 三维重建技术概述

计算机视觉方向简介 | 三维重建技术概述

计算机视觉life

26+阅读 · 2019年6月13日

SkeletonNet：完整的人体三维位姿重建方法

SkeletonNet：完整的人体三维位姿重建方法

计算机视觉life

21+阅读 · 2019年1月21日

【泡泡图灵智库】DynaSLAM：动态场景中的追踪、建图和修复（arXiv）

【泡泡图灵智库】DynaSLAM：动态场景中的追踪、建图和修复（arXiv）

泡泡机器人SLAM

14+阅读 · 2019年1月9日

无人机图像处理技术精髓汇总 (一) 三维还原重建技术简介

无人机图像处理技术精髓汇总 (一) 三维还原重建技术简介

深度学习

14+阅读 · 2018年12月18日

【泡泡机器人公开课】第九十六课：单目相机动态场景三维重建 ‐‐ 从几何驱动到学习驱动--戴玉超

【泡泡机器人公开课】第九十六课：单目相机动态场景三维重建 ‐‐ 从几何驱动到学习驱动--戴玉超

泡泡机器人SLAM

12+阅读 · 2018年9月1日

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

泡泡机器人SLAM

47+阅读 · 2018年8月1日

三维空间基于角度测量的多机器人系统协同定位与编队控制

国家自然科学基金

11+阅读 · 2015年12月31日

动态环境下的实时高清大规模三维地形重建研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于三维激光测距的移动机器人室外环境语义地图构建

国家自然科学基金

2+阅读 · 2015年12月31日

无力传感器策略和可逆向驱动机构并用提高手术机器人触觉感知性能的新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

广域动态的野外环境中移动机器人六维全局定位方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

机器灵巧手基于触滑觉信息协同的自适应力控制方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

未知环境中移动机器人探索式路径规划方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

形状先验和数据驱动的高分辨遥感影像目标提取

国家自然科学基金

3+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

Human Universal Grasping

Arxiv

0+阅读 · 6月15日

Blind Dexterous Grasping via Real2Sim2Real Tactile Policy Learning

Arxiv

0+阅读 · 6月11日

Towards Reliable Sequential Object Picking in Clutter: The Runner-up Solution to RGMC 2025

Arxiv

0+阅读 · 6月11日

RAPTOR: Rapid Aerial Pickup and Transport of Objects by Robots

Arxiv

0+阅读 · 6月9日

SynManDex: Synthesizing Human-like Dexterous Grasps from Synthetic Human Pre-Grasps

Arxiv

0+阅读 · 6月8日

KPGrasp: Scalable Keypoint Flow Matching for Dexterous Grasp Generation

Arxiv

0+阅读 · 6月8日

GEM-4D: Geometry-Enhanced Video World Models for Robot Manipulation

Arxiv

0+阅读 · 6月5日

SimuScene: Simulation-Ready Compositional 3D Scene Reconstruction from a Single Image

Arxiv

0+阅读 · 6月2日

PointAction: 3D Points as Universal Action Representations for Robot Control

Arxiv

0+阅读 · 6月2日

AffordSim: A Scalable Data Generator and Benchmark for Affordance-Aware Robotic Manipulation

Arxiv

0+阅读 · 5月11日

VIP会员

文章信息

相关主题

机器人抓取

最新内容

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

7+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

“史诗怒火”行动：现代多域作战的重要节点

“史诗怒火”行动：现代多域作战的重要节点

专知会员服务

8+阅读 · 7月30日

《下一代无线网络中的多无人机通信资源管理》

《下一代无线网络中的多无人机通信资源管理》

专知会员服务

8+阅读 · 7月30日

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

专知会员服务

9+阅读 · 7月30日

《人机协同在安全关键型操作决策中的应用》120页

《人机协同在安全关键型操作决策中的应用》120页

专知会员服务

8+阅读 · 7月30日

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

专知会员服务

6+阅读 · 7月30日

相关VIP内容

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

【伯克利博士论文】《通向开放世界机器人的基础模型路径》，237页pdf

【伯克利博士论文】《通向开放世界机器人的基础模型路径》，237页pdf

专知会员服务

30+阅读 · 2024年8月31日

【伯克利博士论文】开放世界机器人之基础模型路径

【伯克利博士论文】开放世界机器人之基础模型路径

专知会员服务

37+阅读 · 2024年8月13日

【牛津大学博士论文】面向对象的生成模型在机器人感知与行动中的应用，148页pdf

【牛津大学博士论文】面向对象的生成模型在机器人感知与行动中的应用，148页pdf

专知会员服务

22+阅读 · 2024年2月13日

【CoRL2023】GNFactor:可泛化神经特征场的多任务真实机器人学习，17页pdf

【CoRL2023】GNFactor:可泛化神经特征场的多任务真实机器人学习，17页pdf

专知会员服务

20+阅读 · 2023年9月3日

【机器人自主导航】《移动与机动人工智能（AIMM）世界模型进展报告：路线侦察中的空间概念》美陆军25页技术报告

【机器人自主导航】《移动与机动人工智能（AIMM）世界模型进展报告：路线侦察中的空间概念》美陆军25页技术报告

专知会员服务

65+阅读 · 2022年12月18日

【伯克利博士论文】机器人机械搜索的操作与感知策略

【伯克利博士论文】机器人机械搜索的操作与感知策略

专知会员服务

16+阅读 · 2022年6月4日

【牛津大学BoYang博士论文】学习重建和分割三维物体，143页pdf

【牛津大学BoYang博士论文】学习重建和分割三维物体，143页pdf

专知会员服务

68+阅读 · 2020年11月9日

【NeurIPS 2020】一种端到端全自由度抓取姿态估计网络简介

【NeurIPS 2020】一种端到端全自由度抓取姿态估计网络简介

专知会员服务

20+阅读 · 2020年10月18日

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

专知会员服务

123+阅读 · 2020年5月18日

热门VIP内容

开通专知VIP会员享更多权益服务

隐身技术前沿综述：物理机理、工程实践与战略展望

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

相关资讯

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

专知

10+阅读 · 2023年4月12日

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

专知

12+阅读 · 2023年4月4日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

【2020新书】图机器学习，Graph-Powered Machine Learning

【2020新书】图机器学习，Graph-Powered Machine Learning

专知

76+阅读 · 2020年1月27日

计算机视觉方向简介 | 三维重建技术概述

计算机视觉方向简介 | 三维重建技术概述

计算机视觉life

26+阅读 · 2019年6月13日

SkeletonNet：完整的人体三维位姿重建方法

SkeletonNet：完整的人体三维位姿重建方法

计算机视觉life

21+阅读 · 2019年1月21日

【泡泡图灵智库】DynaSLAM：动态场景中的追踪、建图和修复（arXiv）

【泡泡图灵智库】DynaSLAM：动态场景中的追踪、建图和修复（arXiv）

泡泡机器人SLAM

14+阅读 · 2019年1月9日

无人机图像处理技术精髓汇总 (一) 三维还原重建技术简介

无人机图像处理技术精髓汇总 (一) 三维还原重建技术简介

深度学习

14+阅读 · 2018年12月18日

【泡泡机器人公开课】第九十六课：单目相机动态场景三维重建 ‐‐ 从几何驱动到学习驱动--戴玉超

【泡泡机器人公开课】第九十六课：单目相机动态场景三维重建 ‐‐ 从几何驱动到学习驱动--戴玉超

泡泡机器人SLAM

12+阅读 · 2018年9月1日

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

泡泡机器人SLAM

47+阅读 · 2018年8月1日

相关论文

Human Universal Grasping

Arxiv

0+阅读 · 6月15日

Blind Dexterous Grasping via Real2Sim2Real Tactile Policy Learning

Arxiv

0+阅读 · 6月11日

Towards Reliable Sequential Object Picking in Clutter: The Runner-up Solution to RGMC 2025

Arxiv

0+阅读 · 6月11日

RAPTOR: Rapid Aerial Pickup and Transport of Objects by Robots

Arxiv

0+阅读 · 6月9日

SynManDex: Synthesizing Human-like Dexterous Grasps from Synthetic Human Pre-Grasps

Arxiv

0+阅读 · 6月8日

KPGrasp: Scalable Keypoint Flow Matching for Dexterous Grasp Generation

Arxiv

0+阅读 · 6月8日

GEM-4D: Geometry-Enhanced Video World Models for Robot Manipulation

Arxiv

0+阅读 · 6月5日

SimuScene: Simulation-Ready Compositional 3D Scene Reconstruction from a Single Image

Arxiv

0+阅读 · 6月2日

PointAction: 3D Points as Universal Action Representations for Robot Control

Arxiv

0+阅读 · 6月2日

AffordSim: A Scalable Data Generator and Benchmark for Affordance-Aware Robotic Manipulation

Arxiv

0+阅读 · 5月11日

相关基金

三维空间基于角度测量的多机器人系统协同定位与编队控制

国家自然科学基金

11+阅读 · 2015年12月31日

动态环境下的实时高清大规模三维地形重建研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于三维激光测距的移动机器人室外环境语义地图构建

国家自然科学基金

2+阅读 · 2015年12月31日

无力传感器策略和可逆向驱动机构并用提高手术机器人触觉感知性能的新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

广域动态的野外环境中移动机器人六维全局定位方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

机器灵巧手基于触滑觉信息协同的自适应力控制方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

未知环境中移动机器人探索式路径规划方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

形状先验和数据驱动的高分辨遥感影像目标提取

国家自然科学基金

3+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员