Learning from human video demonstrations remains challenging due to noisy hand-object interactions, unseen objects with partial observation, and cross-embodiment discrepancy. To address these challenges, we present \textit{HOWTransfer} (\emph{H}and-\emph{O}bject \emph{O}pen-\emph{W}orld Transfer), a hand-centric framework that distills human demonstrations into contact-aware, taxonomy-informed, and diverse robotic trajectories. Instead of relying on object-specific descriptions, vision-language queries, or explicit object-state tracking, \emph{HOWTransfer} recovers temporally consistent 3D hand motion and localizes temporal contact intervals by reasoning over observed hand-object interaction cues. The localized contact onsets are then used to retarget human grasp intent into multi-modal parallel-jaw grasp hypotheses, which are propagated along the recovered wrist trajectory to generate robot-executable motions. Finally, a trajectory editing stage refines contact alignment and produces diverse executable variants from a single demonstration. Experiments across diverse manipulation tasks show that \emph{HOWTransfer} enables accurate contact localization and high-quality robot motion retargeting with $86\%$ success, which is preferred over teleoperated trajectories in a blinded preference study.


翻译:从人类视频演示中学习仍面临挑战,包括手-物体交互中的噪声、部分观测下的未知物体以及跨实体差异。为解决这些问题,我们提出 \textit{HOWTransfer}(\emph{手}-物体\emph{开放世界}迁移),这是一种以手部为中心的框架,能够将人类演示提炼为具有接触感知、分类学指导且多样化的机器人轨迹。\emph{HOWTransfer} 不依赖物体特定描述、视觉语言查询或显式物体状态追踪,而是通过推理观察到的交互线索,恢复时间上一致的三维手部运动并定位时间维度的接触区间。随后,定位的接触起始点被用于将人类抓取意图重定向至多模态平行夹爪抓取假设,这些假设沿恢复的手腕轨迹传播以生成机器人可执行运动。最后,轨迹编辑阶段优化接触对齐,并从单一演示中生成多样化的可执行变体。跨多种操作任务的实验表明,\emph{HOWTransfer} 能够实现精确的接触定位和高质量的机器人运动重定向,成功率达到 \(86\%\),在盲选偏好研究中优于遥操作轨迹。

0
下载
关闭预览

相关内容

【博士论文】基于视觉的手语处理:识别、翻译与生成
专知会员服务
13+阅读 · 2025年3月3日
专知会员服务
34+阅读 · 2021年10月11日
基于深度学习的手语识别综述
专知会员服务
47+阅读 · 2020年5月18日
多图带你读懂 Transformers 的工作原理
AI研习社
10+阅读 · 2019年3月18日
迁移自适应学习最新综述,附21页论文下载
基于人体骨架的行为识别【附PPT与视频资料】
人工智能前沿讲习班
31+阅读 · 2019年1月15日
【免费下载】迁移学习简明手册
新智元
21+阅读 · 2018年4月13日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
3+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
2+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员