Recent advances in robotic manipulation have highlighted the effectiveness of learning from demonstration. However, while end-to-end policies excel in expressivity and flexibility, they struggle both in generalizing to novel object geometries and in attaining a high degree of precision. An alternative, object-centric approach frames the task as predicting the placement pose of the target object, providing a modular decomposition of the problem. Building on this goal-prediction paradigm, we propose TAX-DPD, a hierarchical, disentangled point diffusion framework that achieves state-of-the-art performance in placement precision, multi-modal coverage, and generalization to variations in object geometries and scene configurations. We model global scene-level placements through a novel feed-forward Dense Gaussian Mixture Model (GMM) that yields a spatially dense prior over global placements; we then model the local object-level configuration through a novel disentangled point cloud diffusion module that separately diffuses the object geometry and the placement frame, enabling precise local geometric reasoning. Interestingly, we demonstrate that our point cloud diffusion achieves substantially higher accuracy than a prior approach based on SE(3)-diffusion, even in the context of rigid object placement. We validate our approach across a suite of challenging tasks in simulation and in the real-world on high-precision industrial insertion tasks. Furthermore, we present results on a cloth-hanging task in simulation, indicating that our framework can further relax assumptions on object rigidity.


翻译:近期机器人操控领域的进展凸显了从示范中学习的有效性。然而,端到端策略虽在表达力和灵活性上表现优异,却在泛化至新颖物体几何形状及实现高精度方面存在困难。另一种以物体为中心的替代方法,将任务建模为目标物体放置姿态的预测,从而实现问题的模块化解耦。基于这一目标预测范式,我们提出TAX-DPD——一种层次化、解缠的点扩散框架,在放置精度、多模态覆盖范围以及对物体几何形状和场景配置变化的泛化能力上均达到当前最优性能。我们通过新颖的前馈密集高斯混合模型(Dense Gaussian Mixture Model, GMM)对全局场景级放置进行建模,该模型可生成空间密集的全局放置先验;随后通过新颖的解缠点云扩散模块对局部物体级配置进行建模,该模块分别对物体几何结构与放置框架进行扩散,从而实现精确的局部几何推理。有趣的是,我们证明在刚性物体放置场景中,我们的点云扩散方法相较于基于SE(3)-扩散的先前方法取得了显著更高的精度。我们在模拟环境及真实世界的高精度工业插装任务中,通过一系列具有挑战性的任务验证了本方法的有效性。此外,我们在模拟环境中展示了布料悬挂任务的结果,表明该框架可进一步放宽对物体刚性的假设。

0
下载
关闭预览

相关内容

144页ppt《扩散模型》,Google DeepMind Sander Dieleman
专知会员服务
51+阅读 · 2025年11月21日
《用于水下目标定位的平台便携式强化学习方法》
专知会员服务
28+阅读 · 2024年1月2日
【NeurIPS 2020】一种端到端全自由度抓取姿态估计网络简介
专知会员服务
20+阅读 · 2020年10月18日
常用的模型集成方法介绍:bagging、boosting 、stacking
【推荐】ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
机器学习研究会
20+阅读 · 2017年12月17日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
VIP会员
最新内容
无人机自主控制与人工智能:系统性综述
专知会员服务
10+阅读 · 今天7:25
巡飞弹与反无人机系统——现代战场的两大支柱
专知会员服务
3+阅读 · 今天6:54
《打造“黄金舰队”》57页报告
专知会员服务
3+阅读 · 今天6:52
《北约数字教官网络发展路径》128页报告
专知会员服务
2+阅读 · 今天6:33
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
7+阅读 · 6月25日
网状网络及其在军事领域的运用
专知会员服务
8+阅读 · 6月25日
无美国参与的欧洲战争方式(万字长文)
专知会员服务
8+阅读 · 6月25日
《国防领域敏感性分析白皮书》
专知会员服务
9+阅读 · 6月25日
综述 | 从问答到任务完成:Agent系统与Harness设计
专知会员服务
10+阅读 · 6月24日
Agentic RL:框架、实践与长程智能体训练
专知会员服务
10+阅读 · 6月24日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员