Scaling humanoid foundation models is bottlenecked by the scarcity of robotic data. While massive egocentric human data offers a scalable alternative, bridging the cross-embodiment chasm remains a fundamental challenge due to kinematic mismatches. We introduce UniT (Unified Latent Action Tokenizer via Visual Anchoring), a framework that establishes a unified physical language for human-to-humanoid transfer. Grounded in the philosophy that heterogeneous kinematics share universal visual consequences, UniT employs a tri-branch cross-reconstruction mechanism: actions predict vision to anchor kinematics to physical outcomes, while vision reconstructs actions to filter out irrelevant visual confounders. Concurrently, a fusion branch synergies these purified modalities into a shared discrete latent space of embodiment-agnostic physical intents. We validate UniT across two paradigms: 1) Policy Learning (VLA-UniT): By predicting these unified tokens, it effectively leverages diverse human data to achieve state-of-the-art data efficiency and robust out-of-distribution (OOD) generalization on both humanoid simulation benchmark and real-world deployments, notably demonstrating zero-shot task transfer. 2) World Modeling (WM-UniT): By aligning cross-embodiment dynamics via unified tokens as conditions, it realizes direct human-to-humanoid action transfer. This alignment ensures that human data seamlessly translates into enhanced action controllability for humanoid video generation. Ultimately, by inducing a highly aligned cross-embodiment representation (empirically verified by t-SNE visualizations revealing the convergence of human and humanoid features into a shared manifold), UniT offers a scalable path to distill vast human knowledge into general-purpose humanoid capabilities.


翻译:扩展人形机器人基础模型的瓶颈在于机器人数据的稀缺性。虽然大规模第一人称人类数据提供了可扩展的替代方案,但运动学上的不匹配使得跨具身鸿沟的弥合仍是一项根本性挑战。我们提出UniT(基于视觉锚定的统一潜动作分词器),该框架建立了用于人-人形机器人迁移的统一物理语言。基于异构运动学共享通用视觉结果的核心理念,UniT采用三分支交叉重构机制:动作预测视觉以将运动学锚定至物理结果,视觉重构动作以滤除无关的视觉混杂因素;同时,融合分支将这些纯化后的模态协同整合至具身无关物理意图的共享离散潜空间。我们在两种范式下验证UniT:1)策略学习(VLA-UniT):通过预测这些统一令牌,有效利用多样化人类数据,在人形机器人仿真基准和真实部署中实现最先进的数据效率和鲁棒分布外泛化,尤其展现出零样本任务迁移能力。2)世界建模(WM-UniT):通过以统一令牌为条件对齐跨具身动力学,实现直接的人-人形机器人动作迁移。这种对齐确保人类数据无缝转化为增强的人形机器人视频生成动作可控性。最终,通过诱导高度对齐的跨具身表征(t-SNE可视化经验性验证了人类与人形机器人特征收敛至共享流形),UniT为将海量人类知识提炼为通用人形机器人能力提供了可扩展路径。

0
下载
关闭预览

相关内容

机器人(英语:Robot)包括一切模拟人类行为或思想与模拟其他生物的机械(如机器狗,机器猫等)。狭义上对机器人的定义还有很多分类法及争议,有些电脑程序甚至也被称为机器人。在当代工业中,机器人指能自动运行任务的人造机器设备,用以取代或协助人类工作,一般会是机电设备,由计算机程序或是电子电路控制。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【综述】 机器人学习中的世界模型:全面综述
专知会员服务
20+阅读 · 5月4日
多机器人系统的大型语言模型:综述
专知会员服务
33+阅读 · 2025年2月7日
人形机器人深度:产业化渐行渐近,未来前景广阔
专知会员服务
39+阅读 · 2024年7月17日
大型语言模型与智能机器人集成的综述
专知会员服务
71+阅读 · 2024年4月22日
国家自然科学基金
15+阅读 · 2016年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
1+阅读 · 今天15:03
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
0+阅读 · 今天14:31
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
相关基金
国家自然科学基金
15+阅读 · 2016年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员