Human videos contain rich manipulation priors, but using them for robot learning remains difficult because raw observations entangle scene understanding, human motion, and embodiment-specific action. We introduce MoT-HRA, a hierarchical vision-language-action framework that learns human-intention priors from large-scale human demonstrations. We first curate HA-2.2M, a 2.2M-episode action-language dataset reconstructed from heterogeneous human videos through hand-centric filtering, spatial reconstruction, temporal segmentation, and language alignment. On top of this dataset, MoT-HRA factorizes manipulation into three coupled experts: a vision-language expert predicts an embodiment-agnostic 3D trajectory, an intention expert models MANO-style hand motion as a latent human-motion prior, and a fine expert maps the intention-aware representation to robot action chunks. A shared-attention trunk and read-only key-value transfer allow downstream control to use human priors while limiting interference with upstream representations. Experiments on hand motion generation, simulated manipulation, and real-world robot tasks show that MoT-HRA improves motion plausibility and robust control under distribution shift.


翻译:人类视频包含丰富的操作先验,但如何将其用于机器人学习仍面临挑战,因为原始观测数据同时涉及场景理解、人体运动以及具体具身形态的动作。我们提出MoT-HRA——一种层次化视觉-语言-动作框架,能够从大规模人类演示中学习人类意图先验。首先构建HA-2.2M数据集,该数据集包含220万条动作-语言片段,通过手部中心过滤、空间重建、时间分割和语言对齐技术,从异构人类视频中重建而成。在此数据集基础上,MoT-HRA将操作分解为三个耦合专家模块:视觉语言专家预测与具身形态无关的三维轨迹,意图专家将MANO风格的手部运动建模为潜在人类运动先验,精细动作专家将意图感知表征映射为机器人动作序列。采用共享注意力主干与只读键值传输机制,使下游控制能利用人类先验,同时限制对上游表征的干扰。在手部运动生成、仿真操作和真实机器人任务上的实验表明,MoT-HRA能够在分布偏移场景下提升运动合理性及鲁棒控制能力。

0
下载
关闭预览

相关内容

【UIUC博士论文】《从视频中进行机器人学习》
专知会员服务
25+阅读 · 2024年12月20日
来自互联网视频的通用机器人学习:综述
专知会员服务
28+阅读 · 2024年5月4日
如何帮助人类理解机器人?哈佛、MIT专家为你解读
专知会员服务
30+阅读 · 2022年3月11日
机器人运动轨迹的模仿学习综述
专知会员服务
45+阅读 · 2021年6月8日
使用强化学习训练机械臂完成人类任务
AI研习社
14+阅读 · 2019年3月23日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
基于人体骨架的行为识别【附PPT与视频资料】
人工智能前沿讲习班
31+阅读 · 2019年1月15日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
Arxiv
0+阅读 · 3月30日
Arxiv
11+阅读 · 2023年9月22日
VIP会员
最新内容
综述 | 世界动作模型:少做梦,多行动
专知会员服务
3+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
5+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
4+阅读 · 6月23日
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员