Dexterous hands enable concurrent prehensile and nonprehensile manipulation, such as holding one object while interacting with another, a capability essential for everyday tasks yet underexplored in robotics. Learning such long-horizon, contact-rich multi-stage behaviors is challenging because demonstrations are expensive to collect and end-to-end policies require substantial data to generalize across varied object geometries and placements. We present DexMulti, a sample-efficient approach for real-world dexterous multi-task manipulation that decomposes demonstrations into object-centric skills with well-defined temporal boundaries. Rather than learning monolithic policies, our method retrieves demonstrated skills based on current object geometry, aligns them to the observed object state using an uncertainty-aware estimator that tracks centroid and yaw, and executes them via a retrieve-align-execute paradigm. We evaluate on three multi-stage tasks requiring concurrent manipulation (Grasp + Pull, Grasp + Open, and Grasp + Grasp) across two dexterous hands (Allegro and LEAP) in over 1,000 real-world trials. Our approach achieves an average success rate of 66% on training objects with only 3-4 demonstrations per object, outperforming diffusion policy baselines by 2-3x while requiring far fewer demonstrations. Results demonstrate robust generalization to held-out objects and spatial variations up to +/-25 cm.


翻译:灵巧手能够实现并发抓取与非抓取操作,例如在持握一个物体的同时与另一个物体交互,这种能力对日常任务至关重要,但在机器人领域尚未得到充分探索。学习此类长时程、高接触的多阶段行为具有挑战性,因为示范数据收集成本高昂,且端到端策略需要大量数据才能在不同物体几何形状和放置方式上实现泛化。我们提出DexMulti,一种面向真实世界灵巧多任务操作的样本高效方法,该方法将示范分解为具有明确时间边界的以物体为中心的技能。与学习单一整体策略不同,我们的方法基于当前物体几何形状检索已示范技能,通过一个跟踪质心与偏航角的不确定性感知估计器将其对齐至观测到的物体状态,并采用检索-对齐-执行范式执行这些技能。我们在两项灵巧手(Allegro与LEAP)上对三个需要并发操作的多阶段任务(抓取+拉动、抓取+开启、抓取+抓取)进行了超过1000次真实世界试验评估。我们的方法仅需每个物体3-4次示范,即在训练物体上达到平均66%的成功率,性能超越扩散策略基线2-3倍,且所需示范数据量显著减少。结果表明该方法对未见物体及高达±25厘米的空间变化均具有鲁棒的泛化能力。

0
下载
关闭预览

相关内容

深度强化学习与模仿学习导论
专知会员服务
25+阅读 · 2025年12月10日
【CMU博士论文】强化学习的泛化灵巧性,182页pdf
专知会员服务
41+阅读 · 2023年11月4日
模仿学习综述:算法、最新进展和挑战
专知会员服务
67+阅读 · 2023年9月9日
【NeurIPS 2020】一种端到端全自由度抓取姿态估计网络简介
专知会员服务
20+阅读 · 2020年10月18日
探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff?
深度强化学习实验室
13+阅读 · 2020年8月23日
常用的模型集成方法介绍:bagging、boosting 、stacking
机器学习必备手册
机器学习研究会
19+阅读 · 2017年10月24日
NLP中自动生产文摘(auto text summarization)
机器学习研究会
14+阅读 · 2017年10月10日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员