EgoScale: Scaling Dexterous Manipulation with Diverse Egocentric Human Data - 专知论文

会员服务 ·

0

操作 · 自由度 · 损失 · 监督 · 机械手 ·

EgoScale: Scaling Dexterous Manipulation with Diverse Egocentric Human Data

翻译：EgoScale：利用多样化第一人称人类数据扩展灵巧操作能力

Ruijie Zheng,Dantong Niu,Yuqi Xie,Jing Wang,Mengda Xu,Yunfan Jiang,Fernando Castañeda,Fengyuan Hu,You Liang Tan,Letian Fu,Trevor Darrell,Furong Huang,Yuke Zhu,Danfei Xu,Linxi Fan

Human behavior is among the most scalable sources of data for learning physical intelligence, yet how to effectively leverage it for dexterous manipulation remains unclear. While prior work demonstrates human to robot transfer in constrained settings, it is unclear whether large scale human data can support fine grained, high degree of freedom dexterous manipulation. We present EgoScale, a human to dexterous manipulation transfer framework built on large scale egocentric human data. We train a Vision Language Action (VLA) model on over 20,854 hours of action labeled egocentric human video, more than 20 times larger than prior efforts, and uncover a log linear scaling law between human data scale and validation loss. This validation loss strongly correlates with downstream real robot performance, establishing large scale human data as a predictable supervision source. Beyond scale, we introduce a simple two stage transfer recipe: large scale human pretraining followed by lightweight aligned human robot mid training. This enables strong long horizon dexterous manipulation and one shot task adaptation with minimal robot supervision. Our final policy improves average success rate by 54% over a no pretraining baseline using a 22 DoF dexterous robotic hand, and transfers effectively to robots with lower DoF hands, indicating that large scale human motion provides a reusable, embodiment agnostic motor prior.

翻译：人类行为是学习物理智能最具扩展性的数据来源之一，然而如何有效利用其实现灵巧操作仍不明确。尽管先前研究已在受限场景中展示了从人类到机器人的技能迁移，但大规模人类数据能否支持精细、高自由度的灵巧操作尚存疑问。我们提出EgoScale——一个基于大规模第一人称人类数据构建的人类到灵巧操作迁移框架。我们在超过20,854小时标注动作的第一人称人类视频上训练了一个视觉-语言-动作（VLA）模型，其规模超过先前研究的20倍，并揭示了人类数据规模与验证损失之间的对数线性扩展规律。该验证损失与下游真实机器人性能高度相关，从而确立大规模人类数据作为可预测的监督来源。除规模优势外，我们提出一种简洁的两阶段迁移方案：大规模人类预训练后接轻量级对齐的人机中间训练。该方法能以极少的机器人监督实现强长期视野的灵巧操作与单次任务适应。我们的最终策略在使用22自由度灵巧机械手时，相比无预训练基线平均成功率提升54%，并能有效迁移至低自由度机械手，表明大规模人类运动提供了可复用、具身无关的运动先验。

0

相关内容

大语言模型在人类移动性领域的应用：机遇、挑战与未来方向

大语言模型在人类移动性领域的应用：机遇、挑战与未来方向

专知会员服务

15+阅读 · 3月17日

【CMU博士论文】异构数据导航：构建面向多样化数据类型、领域及复杂性的 AI 系统

【CMU博士论文】异构数据导航：构建面向多样化数据类型、领域及复杂性的 AI 系统

专知会员服务

20+阅读 · 2月12日

《战术训练虚拟士兵：一种用于自适应军事模拟的生成式人工智能框架》最新文献

《战术训练虚拟士兵：一种用于自适应军事模拟的生成式人工智能框架》最新文献

专知会员服务

28+阅读 · 2025年9月24日

【博士论文】大规模人工智能中的强化学习智能体：高效训练与更严谨分析

【博士论文】大规模人工智能中的强化学习智能体：高效训练与更严谨分析

专知会员服务

20+阅读 · 2025年7月1日

人工智能作为陆军的多域赋能器

人工智能作为陆军的多域赋能器

专知会员服务

27+阅读 · 2024年8月22日

【COLING2024】从多模态大型语言模型到人类水平的人工智能：模态、指令、推理、效率及超越

【COLING2024】从多模态大型语言模型到人类水平的人工智能：模态、指令、推理、效率及超越

专知会员服务

33+阅读 · 2024年5月26日

《大模型数据增强》综述

《大模型数据增强》综述

专知会员服务

117+阅读 · 2024年1月30日

什么是Data-Centric AI？Rice大学最新《以数据为中心的人工智能》研究综述，38页pdf全面阐述DCAI技术体系

什么是Data-Centric AI？Rice大学最新《以数据为中心的人工智能》研究综述，38页pdf全面阐述DCAI技术体系

专知会员服务

77+阅读 · 2023年3月21日

美智库最新报告：小数据人工智能潜力不可估量，39页pdf

美智库最新报告：小数据人工智能潜力不可估量，39页pdf

专知会员服务

77+阅读 · 2021年11月18日

华东师大最新《人在环路机器学习》综述论文，224篇文献30页pdf

华东师大最新《人在环路机器学习》综述论文，224篇文献30页pdf

专知会员服务

82+阅读 · 2021年8月3日

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

机器之心

15+阅读 · 2023年4月12日

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

专知

111+阅读 · 2022年4月28日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

GAN生成式对抗网络

11+阅读 · 2018年6月5日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

主被动视角联合的细粒度行为识别

国家自然科学基金

1+阅读 · 2015年12月31日

基于粒计算的大数据特征融合理论与方法

国家自然科学基金

8+阅读 · 2015年12月31日

个性化特征大数据支持下的交互式进化计算及其应用

国家自然科学基金

1+阅读 · 2015年12月31日

数据分析算法的融合与人才培养

国家自然科学基金

7+阅读 · 2015年12月31日

面向大数据的群体偏好决策分析研究

国家自然科学基金

6+阅读 · 2014年12月31日

行为轨迹数据高性能时空聚类及社会分析

国家自然科学基金

2+阅读 · 2014年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

ManipulationNet: An Infrastructure for Benchmarking Real-World Robot Manipulation with Physical Skill Challenges and Embodied Multimodal Reasoning

Arxiv

0+阅读 · 3月4日

EgoPoseFormer v2: Accurate Egocentric Human Motion Estimation for AR/VR

Arxiv

0+阅读 · 3月4日

EgoPush: Learning End-to-End Egocentric Multi-Object Rearrangement for Mobile Robots

Arxiv

0+阅读 · 2月20日

EgoHumanoid: Unlocking In-the-Wild Loco-Manipulation with Robot-Free Egocentric Demonstration

Arxiv

0+阅读 · 2月10日

DexImit: Learning Bimanual Dexterous Manipulation from Monocular Human Videos

Arxiv

0+阅读 · 2月10日

RoboPaint: From Human Demonstration to Any Robot and Any View

Arxiv

0+阅读 · 2月7日

SPIDER: Scalable Physics-Informed Dexterous Retargeting

Arxiv

0+阅读 · 2月5日

RoboPaint: From Human Demonstration to Any Robot and Any View

Arxiv

0+阅读 · 2月5日

EgoActor: Grounding Task Planning into Spatial-aware Egocentric Actions for Humanoid Robots via Visual-Language Models

Arxiv

0+阅读 · 2月4日

PhysBrain: Human Egocentric Data as a Bridge from Vision Language Models to Physical Intelligence

Arxiv

0+阅读 · 2月4日

VIP会员

文章信息

相关主题

最新内容

《越野作战环境下路径规划的多准则整数规划模型》

《越野作战环境下路径规划的多准则整数规划模型》

专知会员服务

2+阅读 · 15分钟前

人工智能大语言模型引擎如何重塑全球冲突信息环境最新50页

人工智能大语言模型引擎如何重塑全球冲突信息环境最新50页

专知会员服务

2+阅读 · 21分钟前

《防空系统对自主武器系统辩论中“有意义的人类控制”的启示》70页报告

《防空系统对自主武器系统辩论中“有意义的人类控制”的启示》70页报告

专知会员服务

2+阅读 · 28分钟前

“对标ChatGPT”：乌军研发Marichka AI系统用于战场筹划

“对标ChatGPT”：乌军研发Marichka AI系统用于战场筹划

专知会员服务

2+阅读 · 32分钟前

《同步多无人机系统中的故障与通信》

《同步多无人机系统中的故障与通信》

专知会员服务

2+阅读 · 今天6:23

论文解读 | 医学图像修复中的扩散模型：挑战、分类与未来方向

论文解读 | 医学图像修复中的扩散模型：挑战、分类与未来方向

专知会员服务

2+阅读 · 7月28日

博士论文 | 从算法到基础模型：强化学习的统一视角

博士论文 | 从算法到基础模型：强化学习的统一视角

专知会员服务

6+阅读 · 7月28日

面向国防作战的最佳自主与蜂群无人机技术

面向国防作战的最佳自主与蜂群无人机技术

专知会员服务

7+阅读 · 7月28日

《异构人类团队的协作决策过程混合建模研究》

《异构人类团队的协作决策过程混合建模研究》

专知会员服务

7+阅读 · 7月28日

《C5ISR系统中的注意力动态与自适应决策支持研究：视觉与多模态注意力引导对任务绩效影响的递归量化分析》最新36页报告

《C5ISR系统中的注意力动态与自适应决策支持研究：视觉与多模态注意力引导对任务绩效影响的递归量化分析》最新36页报告

专知会员服务

8+阅读 · 7月28日

《设计思维中的人机协作：生成式人工智能对共情访谈影响的探究》140页

《设计思维中的人机协作：生成式人工智能对共情访谈影响的探究》140页

专知会员服务

9+阅读 · 7月28日

博士论文 | 面向大模型推理的内存高效算法

博士论文 | 面向大模型推理的内存高效算法

专知会员服务

5+阅读 · 7月27日

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

专知会员服务

10+阅读 · 7月27日

《无人系统互操作性导论——无人系统联合架构（JAUS）》

《无人系统互操作性导论——无人系统联合架构（JAUS）》

专知会员服务

14+阅读 · 7月27日

美空军新型反无人机部队初探

美空军新型反无人机部队初探

专知会员服务

9+阅读 · 7月27日

相关VIP内容

大语言模型在人类移动性领域的应用：机遇、挑战与未来方向

大语言模型在人类移动性领域的应用：机遇、挑战与未来方向

专知会员服务

15+阅读 · 3月17日

【CMU博士论文】异构数据导航：构建面向多样化数据类型、领域及复杂性的 AI 系统

【CMU博士论文】异构数据导航：构建面向多样化数据类型、领域及复杂性的 AI 系统

专知会员服务

20+阅读 · 2月12日

《战术训练虚拟士兵：一种用于自适应军事模拟的生成式人工智能框架》最新文献

《战术训练虚拟士兵：一种用于自适应军事模拟的生成式人工智能框架》最新文献

专知会员服务

28+阅读 · 2025年9月24日

【博士论文】大规模人工智能中的强化学习智能体：高效训练与更严谨分析

【博士论文】大规模人工智能中的强化学习智能体：高效训练与更严谨分析

专知会员服务

20+阅读 · 2025年7月1日

人工智能作为陆军的多域赋能器

人工智能作为陆军的多域赋能器

专知会员服务

27+阅读 · 2024年8月22日

【COLING2024】从多模态大型语言模型到人类水平的人工智能：模态、指令、推理、效率及超越

【COLING2024】从多模态大型语言模型到人类水平的人工智能：模态、指令、推理、效率及超越

专知会员服务

33+阅读 · 2024年5月26日

《大模型数据增强》综述

《大模型数据增强》综述

专知会员服务

117+阅读 · 2024年1月30日

什么是Data-Centric AI？Rice大学最新《以数据为中心的人工智能》研究综述，38页pdf全面阐述DCAI技术体系

什么是Data-Centric AI？Rice大学最新《以数据为中心的人工智能》研究综述，38页pdf全面阐述DCAI技术体系

专知会员服务

77+阅读 · 2023年3月21日

美智库最新报告：小数据人工智能潜力不可估量，39页pdf

美智库最新报告：小数据人工智能潜力不可估量，39页pdf

专知会员服务

77+阅读 · 2021年11月18日

华东师大最新《人在环路机器学习》综述论文，224篇文献30页pdf

华东师大最新《人在环路机器学习》综述论文，224篇文献30页pdf

专知会员服务

82+阅读 · 2021年8月3日

热门VIP内容

开通专知VIP会员享更多权益服务

人工智能大语言模型引擎如何重塑全球冲突信息环境最新50页

“对标ChatGPT”：乌军研发Marichka AI系统用于战场筹划

《越野作战环境下路径规划的多准则整数规划模型》

《防空系统对自主武器系统辩论中“有意义的人类控制”的启示》70页报告

相关资讯

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

机器之心

15+阅读 · 2023年4月12日

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

专知

111+阅读 · 2022年4月28日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

GAN生成式对抗网络

11+阅读 · 2018年6月5日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

ManipulationNet: An Infrastructure for Benchmarking Real-World Robot Manipulation with Physical Skill Challenges and Embodied Multimodal Reasoning

Arxiv

0+阅读 · 3月4日

EgoPoseFormer v2: Accurate Egocentric Human Motion Estimation for AR/VR

Arxiv

0+阅读 · 3月4日

EgoPush: Learning End-to-End Egocentric Multi-Object Rearrangement for Mobile Robots

Arxiv

0+阅读 · 2月20日

EgoHumanoid: Unlocking In-the-Wild Loco-Manipulation with Robot-Free Egocentric Demonstration

Arxiv

0+阅读 · 2月10日

DexImit: Learning Bimanual Dexterous Manipulation from Monocular Human Videos

Arxiv

0+阅读 · 2月10日

RoboPaint: From Human Demonstration to Any Robot and Any View

Arxiv

0+阅读 · 2月7日

SPIDER: Scalable Physics-Informed Dexterous Retargeting

Arxiv

0+阅读 · 2月5日

RoboPaint: From Human Demonstration to Any Robot and Any View

Arxiv

0+阅读 · 2月5日

EgoActor: Grounding Task Planning into Spatial-aware Egocentric Actions for Humanoid Robots via Visual-Language Models

Arxiv

0+阅读 · 2月4日

PhysBrain: Human Egocentric Data as a Bridge from Vision Language Models to Physical Intelligence

Arxiv

0+阅读 · 2月4日

相关基金

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

主被动视角联合的细粒度行为识别

国家自然科学基金

1+阅读 · 2015年12月31日

基于粒计算的大数据特征融合理论与方法

国家自然科学基金

8+阅读 · 2015年12月31日

个性化特征大数据支持下的交互式进化计算及其应用

国家自然科学基金

1+阅读 · 2015年12月31日

数据分析算法的融合与人才培养

国家自然科学基金

7+阅读 · 2015年12月31日

面向大数据的群体偏好决策分析研究

国家自然科学基金

6+阅读 · 2014年12月31日

行为轨迹数据高性能时空聚类及社会分析

国家自然科学基金

2+阅读 · 2014年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员