Human behavior is among the most scalable sources of data for learning physical intelligence, yet how to effectively leverage it for dexterous manipulation remains unclear. While prior work demonstrates human to robot transfer in constrained settings, it is unclear whether large scale human data can support fine grained, high degree of freedom dexterous manipulation. We present EgoScale, a human to dexterous manipulation transfer framework built on large scale egocentric human data. We train a Vision Language Action (VLA) model on over 20,854 hours of action labeled egocentric human video, more than 20 times larger than prior efforts, and uncover a log linear scaling law between human data scale and validation loss. This validation loss strongly correlates with downstream real robot performance, establishing large scale human data as a predictable supervision source. Beyond scale, we introduce a simple two stage transfer recipe: large scale human pretraining followed by lightweight aligned human robot mid training. This enables strong long horizon dexterous manipulation and one shot task adaptation with minimal robot supervision. Our final policy improves average success rate by 54% over a no pretraining baseline using a 22 DoF dexterous robotic hand, and transfers effectively to robots with lower DoF hands, indicating that large scale human motion provides a reusable, embodiment agnostic motor prior.


翻译:人类行为是学习物理智能最具扩展性的数据来源之一,然而如何有效利用其实现灵巧操作仍不明确。尽管先前研究已在受限场景中展示了从人类到机器人的技能迁移,但大规模人类数据能否支持精细、高自由度的灵巧操作尚存疑问。我们提出EgoScale——一个基于大规模第一人称人类数据构建的人类到灵巧操作迁移框架。我们在超过20,854小时标注动作的第一人称人类视频上训练了一个视觉-语言-动作(VLA)模型,其规模超过先前研究的20倍,并揭示了人类数据规模与验证损失之间的对数线性扩展规律。该验证损失与下游真实机器人性能高度相关,从而确立大规模人类数据作为可预测的监督来源。除规模优势外,我们提出一种简洁的两阶段迁移方案:大规模人类预训练后接轻量级对齐的人机中间训练。该方法能以极少的机器人监督实现强长期视野的灵巧操作与单次任务适应。我们的最终策略在使用22自由度灵巧机械手时,相比无预训练基线平均成功率提升54%,并能有效迁移至低自由度机械手,表明大规模人类运动提供了可复用、具身无关的运动先验。

0
下载
关闭预览

相关内容

人工智能作为陆军的多域赋能器
专知会员服务
26+阅读 · 2024年8月22日
《大模型数据增强》综述
专知会员服务
117+阅读 · 2024年1月30日
美智库最新报告:小数据人工智能潜力不可估量,39页pdf
专知会员服务
75+阅读 · 2021年11月18日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员