Humans learn locomotion through visual observation, interpreting visual content first before imitating actions. However, state-of-the-art humanoid locomotion systems rely on either curated motion capture trajectories or sparse text commands, leaving a critical gap between visual understanding and control. Text-to-motion methods suffer from semantic sparsity and staged pipeline errors, while video-based approaches only perform mechanical pose mimicry without genuine visual understanding. We propose RoboMirror, the first retargeting-free video-to-locomotion framework embodying "understand before you imitate". Leveraging VLMs, it distills raw egocentric/third-person videos into visual motion intents, which directly condition a diffusion-based policy to generate physically plausible, semantically aligned locomotion without explicit pose reconstruction or retargeting. Extensive experiments validate the effectiveness of RoboMirror, it enables telepresence via egocentric videos, drastically reduces third-person control latency by 80%, and achieves a 3.7% higher task success rate than baselines. By reframing humanoid control around video understanding, we bridge the visual understanding and action gap.


翻译:人类通过视觉观察学习步态运动,先理解视觉内容再模仿动作。然而,当前最先进的人形机器人步态系统要么依赖人工筛选的运动捕捉轨迹,要么依赖稀疏的文本指令,在视觉理解与控制之间仍存在关键鸿沟。文本到运动方法受限于语义稀疏性和分阶段流水线误差,而基于视频的方法仅执行机械的姿态模仿,缺乏真正的视觉理解。我们提出RoboMirror——首个无需重定向的视频到步态框架,其核心是“先理解后模仿”。该框架利用视觉语言模型,将原始第一人称/第三人称视频提炼为视觉运动意图,并直接作为基于扩散策略的条件输入,以生成物理合理、语义对齐的步态运动,无需显式的姿态重建或重定向。大量实验验证了RoboMirror的有效性:它支持通过第一人称视频实现远程临场控制,将第三人称控制延迟大幅降低80%,且任务成功率较基线方法提升3.7%。通过将人形机器人控制重构为以视频理解为核心,我们成功弥合了视觉理解与行动执行之间的鸿沟。

0
下载
关闭预览

相关内容

【博士论文】学习视觉-语言表示以实现多模态理解
专知会员服务
28+阅读 · 2025年2月8日
伯克利最新《机器人》课程
专知会员服务
35+阅读 · 2025年1月6日
机器人运动轨迹的模仿学习综述
专知会员服务
45+阅读 · 2021年6月8日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
【机器人】机器人PID控制
产业智能官
10+阅读 · 2018年11月25日
AI综述专栏 | 步态识别的深度学习综述
人工智能前沿讲习班
29+阅读 · 2018年6月27日
报名 | 让机器读懂你的意图——人体姿态估计入门
人工智能头条
10+阅读 · 2017年9月19日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员