Deploying humanoid robots in real-world settings is fundamentally challenging, as it demands tight integration of perception, locomotion, and manipulation under partial-information observations and dynamically changing environments. As well as transitioning robustly between sub-tasks of different types. Towards addressing these challenges, we propose a novel task - EgoActing, which requires directly grounding high-level instructions into various, precise, spatially aware humanoid actions. We further instantiate this task by introducing EgoActor, a unified and scalable vision-language model (VLM) that can predict locomotion primitives (e.g., walk, turn, move sideways, change height), head movements, manipulation commands, and human-robot interactions to coordinate perception and execution in real-time. We leverage broad supervision over egocentric RGB-only data from real-world demonstrations, spatial reasoning question-answering, and simulated environment demonstrations, enabling EgoActor to make robust, context-aware decisions and perform fluent action inference (under 1s) with both 8B and 4B parameter models. Extensive evaluations in both simulated and real-world environments demonstrate that EgoActor effectively bridges abstract task planning and concrete motor execution, while generalizing across diverse tasks and unseen environments.


翻译:在现实世界中部署具身机器人面临根本性挑战,因为这需要在部分信息观测和动态变化环境下,紧密整合感知、运动与操作能力,并能在不同类型子任务间稳健切换。为应对这些挑战,我们提出一项新颖任务——EgoActing,该任务要求将高层指令直接落地为多样化、精确且具有空间感知的具身机器人动作。我们进一步通过引入EgoActor来实例化该任务,这是一个统一且可扩展的视觉语言模型(VLM),能够预测运动基元(如行走、转向、侧移、高度调整)、头部运动、操作指令以及人机交互行为,从而实时协调感知与执行。我们利用来自真实世界演示的纯RGB自我中心数据、空间推理问答以及仿真环境演示的广泛监督,使EgoActor能够做出稳健的上下文感知决策,并以8B和4B参数模型实现流畅的动作推理(低于1秒)。在仿真和真实环境中的大量评估表明,EgoActor有效衔接了抽象任务规划与具体运动执行,同时在不同任务和未见环境中展现出良好的泛化能力。

0
下载
关闭预览

相关内容

具身智能中的心理世界建模:深度综述
专知会员服务
28+阅读 · 1月10日
【斯坦福博士论文】移动操作机器人的学习系统构建研究
专知会员服务
14+阅读 · 2025年11月14日
面向具身操作的视觉-语言-动作模型综述
专知会员服务
28+阅读 · 2025年8月23日
AI大模型驱动的具身智能人形机器人技术与展望
专知会员服务
24+阅读 · 2025年5月26日
使用强化学习训练机械臂完成人类任务
AI研习社
14+阅读 · 2019年3月23日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
50+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
50+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员