Enabling humanoid robots to follow free-form language commands is critical for seamless human-robot interaction, collaborative task execution, and general-purpose embodied intelligence. While recent advances have improved low-level humanoid locomotion and robot manipulation, language-conditioned whole-body control remains a significant challenge. Existing methods are often limited to simple instructions and sacrifice either motion diversity or physical plausibility. To address this, we introduce Humanoid-LLA, a Large Language Action Model that maps expressive language commands to physically executable whole-body actions for humanoid robots. Our approach integrates three core components: a unified motion vocabulary that aligns human and humanoid motion primitives into a shared discrete space; a vocabulary-directed controller distilled from a privileged policy to ensure physical feasibility; and a physics-informed fine-tuning stage using reinforcement learning with dynamics-aware rewards to enhance robustness and stability. Extensive evaluations in simulation and on real-world Unitree G1 and Booster T1 humanoids show that Humanoid-LLA delivers strong language generalization while maintaining high physical fidelity, outperforming existing language-conditioned controllers in motion naturalness, stability, and execution success rate.


翻译:使人形机器人能够遵循自由形式的语言指令,对于无缝人机交互、协作任务执行以及通用具身智能至关重要。尽管近期进展提升了低级别的人形机器人运动与机器人操控能力,但语言条件化的全身控制仍是一项重大挑战。现有方法通常局限于简单指令,且要么牺牲运动多样性,要么损害物理合理性。为解决这一问题,我们提出了Humanoid-LLA,一种大型语言动作模型,能够将表达性语言指令映射为实际可执行的全身动作,适用于人形机器人。我们的方法整合了三大核心组成部分:一个统一运动词汇表,将人与机器人运动基元对齐至共享离散空间;一个从特权策略中提取的词汇导向控制器,确保物理可行性;以及一个基于强化学习与动力学感知奖励的物理信息微调阶段,用于增强鲁棒性与稳定性。在仿真及真实Unitree G1与Booster T1人形机器人上的广泛评估表明,Humanoid-LLA在保持高物理逼真度的同时,展现出卓越的语言泛化能力,在运动自然度、稳定性及执行成功率上均优于现有语言条件化控制器。

0
下载
关闭预览

相关内容

机器人(英语:Robot)包括一切模拟人类行为或思想与模拟其他生物的机械(如机器狗,机器猫等)。狭义上对机器人的定义还有很多分类法及争议,有些电脑程序甚至也被称为机器人。在当代工业中,机器人指能自动运行任务的人造机器设备,用以取代或协助人类工作,一般会是机电设备,由计算机程序或是电子电路控制。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
面向具身操作的视觉-语言-动作模型综述
专知会员服务
28+阅读 · 2025年8月23日
AI大模型驱动的具身智能人形机器人技术与展望
专知会员服务
27+阅读 · 2025年5月26日
人形机器人深度:产业化渐行渐近,未来前景广阔
专知会员服务
39+阅读 · 2024年7月17日
《基于人机交互界面的大规模蜂群指挥与控制》
专知会员服务
63+阅读 · 2024年5月1日
大型语言模型与智能机器人集成的综述
专知会员服务
71+阅读 · 2024年4月22日
人形机器人行业深度:具身智能,迈向广阔蓝海市场
专知会员服务
51+阅读 · 2023年7月2日
机器人军团的智能指挥
科技导报
12+阅读 · 2019年4月4日
【机器人】机器人PID控制
产业智能官
10+阅读 · 2018年11月25日
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
VIP会员
最新内容
认知战与交战性质的改变:神经战略视角
专知会员服务
5+阅读 · 5月8日
人工智能如何变革军事C5ISR作战
专知会员服务
12+阅读 · 5月8日
相关基金
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员