Task-oriented grasping is a crucial yet challenging task in robotic manipulation. Despite the recent progress, few existing methods address task-oriented grasping with dexterous hands. Dexterous hands provide better precision and versatility, enabling robots to perform task-oriented grasping more effectively. In this paper, we argue that part analysis can enhance dexterous grasping by providing detailed information about the object's functionality. We propose PartDexTOG, a method that generates dexterous task-oriented grasps via language-driven part analysis. Taking a 3D object and a manipulation task represented by language as input, the method first generates the category-level and part-level grasp descriptions w.r.t the manipulation task by LLMs. Then, a category-part conditional diffusion model is developed to generate a dexterous grasp for each part, respectively, based on the generated descriptions. To select the most plausible combination of grasp and corresponding part from the generated ones, we propose a measure of geometric consistency between grasp and part. We show that our method greatly benefits from the open-world knowledge reasoning on object parts by LLMs, which naturally facilitates the learning of grasp generation on objects with different geometry and for different manipulation tasks. Our method ranks top on the OakInk-shape dataset over all previous methods, improving the Penetration Volume, the Grasp Displace, and the P-FID over the state-of-the-art by $3.58\%$, $2.87\%$, and $41.43\%$, respectively. Notably, it demonstrates good generality in handling novel categories and tasks.


翻译:任务导向抓取是机器人操作中至关重要且具有挑战性的任务。尽管近期取得了进展,但现有方法很少涉及使用灵巧手进行任务导向抓取。灵巧手提供了更好的精度和多功能性,使机器人能够更有效地执行任务导向抓取。在本文中,我们认为部件分析可以通过提供关于物体功能的详细信息来增强灵巧抓取。我们提出了PartDexTOG,一种通过语言驱动的部件分析生成灵巧任务导向抓取的方法。该方法以三维物体和由语言表示的操作任务作为输入,首先通过大语言模型生成针对该操作任务的类别级和部件级抓取描述。然后,开发了一个类别-部件条件扩散模型,根据生成的描述分别为每个部件生成灵巧抓取。为了从生成的抓取中选择最合理的抓取与对应部件的组合,我们提出了一种衡量抓取与部件之间几何一致性的度量。我们证明,我们的方法极大地受益于大语言模型对物体部件的开放世界知识推理,这自然促进了在不同几何形状的物体上以及针对不同操作任务的抓取生成学习。我们的方法在OakInk-shape数据集上超越了所有先前方法,将穿透体积、抓取位移和P-FID指标相对于最先进方法分别提高了$3.58\%$、$2.87\%$和$41.43\%$。值得注意的是,它在处理新类别和新任务时表现出良好的泛化能力。

0
下载
关闭预览

相关内容

UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
神经网络机器翻译原理:LSTM、seq2seq到Zero-Shot
北京思腾合力科技有限公司
11+阅读 · 2017年8月10日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员