Predictive Style Matching: Natural and Robust Humanoid Locomotion - 专知论文

会员服务 ·

0

机器人 · 稳健 · 基线 · 机器人运动控制 · 对抗 ·

Predictive Style Matching: Natural and Robust Humanoid Locomotion

翻译：预测性风格匹配：自然且稳健的人形机器人运动

Simeon Nedelchev,Ekaterina Chaikovskaia,Egor Davydenko,Eduard Zaliaev,Roman Gorbachev

Reinforcement learning has become the prevailing approach to humanoid locomotion control: policies transfer reliably from simulation to hardware and recover gracefully from disturbances. Motion quality, however, still lags behind: task-only rewards often converge to stiff, asymmetric gaits, while motion imitation methods improve appearance but become more sensitive to external disturbances because reference signals can oppose the transient poses needed to regain balance. We propose Predictive Style Matching, in which an offline predictor maps the robot's lower-body state history and velocity commands to interpretable upper-body joint and gait targets that shape the rewards during training. Because the targets are state-conditioned rather than time-indexed and the predictor is used only at training time, the deployed controller inherits the proprioceptive interface and inference cost of a task-only RL baseline. On the Unitree G1, in both simulation and hardware, PSM reduces upper-body style error by roughly an order of magnitude over task-only RL while preserving its fall-recovery rate, whereas the motion-imitation baseline attains the lowest style error but fails to recover from disturbances about five times as often.

翻译：强化学习已成为人形机器人运动控制的主流方法：策略能够可靠地从仿真迁移至硬件，并在受到干扰后优雅地恢复。然而，运动质量仍存在不足：仅基于任务奖励的模型往往收敛至僵硬、不对称的步态，而运动模仿方法虽能改善外观表现，却因参考信号可能对抗维持平衡所需的瞬时姿态，导致对外部干扰更为敏感。我们提出预测性风格匹配方法，其中离线预测器将机器人下肢状态历史与速度指令映射为可解读的上肢关节及步态目标参数，这些参数在训练过程中塑造奖励函数。由于目标参数基于状态条件而非时间索引，且预测器仅在训练阶段使用，部署后的控制器继承了纯任务奖励强化学习基线模型的本体感知接口与推理开销。在Unitree G1平台上，无论仿真还是实体实验，预测性风格匹配相比纯任务奖励方法可将上肢风格误差降低约一个数量级，同时保持其跌倒恢复率；而运动模仿基线虽能达到最低风格误差，但其干扰恢复失败频率却高出约五倍。

0

相关内容

机器人

机器人（英语：Robot）包括一切模拟人类行为或思想与模拟其他生物的机械（如机器狗，机器猫等）。狭义上对机器人的定义还有很多分类法及争议，有些电脑程序甚至也被称为机器人。在当代工业中，机器人指能自动运行任务的人造机器设备，用以取代或协助人类工作，一般会是机电设备，由计算机程序或是电子电路控制。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

专知会员服务

11+阅读 · 6月3日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

人形机器人深度：产业化渐行渐近，未来前景广阔

人形机器人深度：产业化渐行渐近，未来前景广阔

专知会员服务

39+阅读 · 2024年7月17日

人形机器人系列报告：AI超预期助力产业落地，核心零部件配套星辰大海

人形机器人系列报告：AI超预期助力产业落地，核心零部件配套星辰大海

专知会员服务

45+阅读 · 2024年3月12日

【ETHZ博士论文】通过自适应和基于学习的模型预测控制的机器人移动操纵

【ETHZ博士论文】通过自适应和基于学习的模型预测控制的机器人移动操纵

专知会员服务

25+阅读 · 2023年11月26日

【人形机器人系列报告】多维度赋能，人形机器人蓄势待发

【人形机器人系列报告】多维度赋能，人形机器人蓄势待发

专知会员服务

44+阅读 · 2023年7月31日

人形机器人行业深度：具身智能，迈向广阔蓝海市场

人形机器人行业深度：具身智能，迈向广阔蓝海市场

专知会员服务

51+阅读 · 2023年7月2日

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

专知会员服务

51+阅读 · 2023年4月12日

机器人运动轨迹的模仿学习综述

机器人运动轨迹的模仿学习综述

专知会员服务

45+阅读 · 2021年6月8日

基于深度强化学习的机器人运动控制研究进展

专知会员服务

66+阅读 · 2021年4月22日

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

专知

10+阅读 · 2023年4月12日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

中国自动化学会

11+阅读 · 2019年6月18日

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

机器之心

20+阅读 · 2019年5月3日

【Science机器人2019子刊AI5篇新论文】不止模仿：通过学习概念的认知程序实现机器人零数据任务迁移

【Science机器人2019子刊AI5篇新论文】不止模仿：通过学习概念的认知程序实现机器人零数据任务迁移

专知

10+阅读 · 2019年1月18日

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

产业智能官

13+阅读 · 2019年1月17日

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

产业智能官

16+阅读 · 2018年12月27日

【机器人】机器人PID控制

【机器人】机器人PID控制

产业智能官

10+阅读 · 2018年11月25日

报名 | 让机器读懂你的意图——人体姿态估计入门

报名 | 让机器读懂你的意图——人体姿态估计入门

人工智能头条

10+阅读 · 2017年9月19日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

面向复杂环境的四足机器人自适应和快速稳定运动控制方法研究及应用

国家自然科学基金

0+阅读 · 2017年12月31日

共融机器人战略规划研究和学术交流

国家自然科学基金

15+阅读 · 2016年12月31日

人类步行机理认知下的双足机器人步态与智能协同进化理论基础

国家自然科学基金

0+阅读 · 2015年12月31日

融合人脑意图与力觉反馈的外骨骼机器人步态控制CPG模型及调节方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向类人机器人动作规划的参数最优控制技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

人机协调稳定约束的单腿外骨骼机器人自适应式动平衡助行控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于模块结合面微观接触机理的模块化机器人动态特性分析与研究

国家自然科学基金

1+阅读 · 2015年12月31日

仿人轻型机械臂人机协作模式关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

OmniRetarget: Interaction-Preserving Data Generation for Humanoid Whole-Body Loco-Manipulation and Scene Interaction

Arxiv

0+阅读 · 6月15日

Perceptive Behavior Foundation Model: Adapting Human Motion Priors to Robot-Centric Terrain

Arxiv

0+阅读 · 6月15日

ParkourFormer: Integrating Predictive Supervision and Sequence Modeling into Parkour Locomotion

Arxiv

0+阅读 · 6月12日

Stubborn: A Streamlined and Unified Reinforcement Learning Framework for Robust Motion Tracking and Fall Recovery for Humanoids

Arxiv

0+阅读 · 6月11日

Scalable and General Whole-Body Control for Cross-Humanoid Locomotion

Arxiv

0+阅读 · 6月9日

OMG: Omni-Modal Motion Generation for Generalist Humanoid Control

Arxiv

0+阅读 · 6月9日

Mind Your Steps: A General Learning Framework for Accurate Humanoid Foothold Tracking

Arxiv

0+阅读 · 6月6日

Perceptive Behavior Foundation Model: Adapting Human Motion Priors to Robot-Centric Terrain

Arxiv

0+阅读 · 6月6日

ParkourFormer: Integrating Predictive Supervision and Sequence Modeling into Parkour Locomotion

Arxiv

0+阅读 · 5月25日

Unified Walking, Running, and Recovery for Humanoids via State-Dependent Adversarial Motion Priors

Arxiv

0+阅读 · 5月18日

VIP会员

文章信息

相关主题

机器人运动控制

最新内容

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 今天4:35

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

3+阅读 · 今天4:24

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 今天4:18

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 今天4:15

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 今天4:08

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

7+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

“史诗怒火”行动：现代多域作战的重要节点

“史诗怒火”行动：现代多域作战的重要节点

专知会员服务

8+阅读 · 7月30日

《下一代无线网络中的多无人机通信资源管理》

《下一代无线网络中的多无人机通信资源管理》

专知会员服务

8+阅读 · 7月30日

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

专知会员服务

9+阅读 · 7月30日

《人机协同在安全关键型操作决策中的应用》120页

《人机协同在安全关键型操作决策中的应用》120页

专知会员服务

8+阅读 · 7月30日

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

专知会员服务

6+阅读 · 7月30日

相关VIP内容

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

专知会员服务

11+阅读 · 6月3日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

人形机器人深度：产业化渐行渐近，未来前景广阔

人形机器人深度：产业化渐行渐近，未来前景广阔

专知会员服务

39+阅读 · 2024年7月17日

人形机器人系列报告：AI超预期助力产业落地，核心零部件配套星辰大海

人形机器人系列报告：AI超预期助力产业落地，核心零部件配套星辰大海

专知会员服务

45+阅读 · 2024年3月12日

【ETHZ博士论文】通过自适应和基于学习的模型预测控制的机器人移动操纵

【ETHZ博士论文】通过自适应和基于学习的模型预测控制的机器人移动操纵

专知会员服务

25+阅读 · 2023年11月26日

【人形机器人系列报告】多维度赋能，人形机器人蓄势待发

【人形机器人系列报告】多维度赋能，人形机器人蓄势待发

专知会员服务

44+阅读 · 2023年7月31日

人形机器人行业深度：具身智能，迈向广阔蓝海市场

人形机器人行业深度：具身智能，迈向广阔蓝海市场

专知会员服务

51+阅读 · 2023年7月2日

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

专知会员服务

51+阅读 · 2023年4月12日

机器人运动轨迹的模仿学习综述

机器人运动轨迹的模仿学习综述

专知会员服务

45+阅读 · 2021年6月8日

基于深度强化学习的机器人运动控制研究进展

专知会员服务

66+阅读 · 2021年4月22日

热门VIP内容

开通专知VIP会员享更多权益服务

隐身技术前沿综述：物理机理、工程实践与战略展望

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

相关资讯

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

专知

10+阅读 · 2023年4月12日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

中国自动化学会

11+阅读 · 2019年6月18日

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

机器之心

20+阅读 · 2019年5月3日

【Science机器人2019子刊AI5篇新论文】不止模仿：通过学习概念的认知程序实现机器人零数据任务迁移

【Science机器人2019子刊AI5篇新论文】不止模仿：通过学习概念的认知程序实现机器人零数据任务迁移

专知

10+阅读 · 2019年1月18日

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

产业智能官

13+阅读 · 2019年1月17日

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

产业智能官

16+阅读 · 2018年12月27日

【机器人】机器人PID控制

【机器人】机器人PID控制

产业智能官

10+阅读 · 2018年11月25日

报名 | 让机器读懂你的意图——人体姿态估计入门

报名 | 让机器读懂你的意图——人体姿态估计入门

人工智能头条

10+阅读 · 2017年9月19日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

OmniRetarget: Interaction-Preserving Data Generation for Humanoid Whole-Body Loco-Manipulation and Scene Interaction

Arxiv

0+阅读 · 6月15日

Perceptive Behavior Foundation Model: Adapting Human Motion Priors to Robot-Centric Terrain

Arxiv

0+阅读 · 6月15日

ParkourFormer: Integrating Predictive Supervision and Sequence Modeling into Parkour Locomotion

Arxiv

0+阅读 · 6月12日

Stubborn: A Streamlined and Unified Reinforcement Learning Framework for Robust Motion Tracking and Fall Recovery for Humanoids

Arxiv

0+阅读 · 6月11日

Scalable and General Whole-Body Control for Cross-Humanoid Locomotion

Arxiv

0+阅读 · 6月9日

OMG: Omni-Modal Motion Generation for Generalist Humanoid Control

Arxiv

0+阅读 · 6月9日

Mind Your Steps: A General Learning Framework for Accurate Humanoid Foothold Tracking

Arxiv

0+阅读 · 6月6日

Perceptive Behavior Foundation Model: Adapting Human Motion Priors to Robot-Centric Terrain

Arxiv

0+阅读 · 6月6日

ParkourFormer: Integrating Predictive Supervision and Sequence Modeling into Parkour Locomotion

Arxiv

0+阅读 · 5月25日

Unified Walking, Running, and Recovery for Humanoids via State-Dependent Adversarial Motion Priors

Arxiv

0+阅读 · 5月18日

相关基金

面向复杂环境的四足机器人自适应和快速稳定运动控制方法研究及应用

国家自然科学基金

0+阅读 · 2017年12月31日

共融机器人战略规划研究和学术交流

国家自然科学基金

15+阅读 · 2016年12月31日

人类步行机理认知下的双足机器人步态与智能协同进化理论基础

国家自然科学基金

0+阅读 · 2015年12月31日

融合人脑意图与力觉反馈的外骨骼机器人步态控制CPG模型及调节方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向类人机器人动作规划的参数最优控制技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

人机协调稳定约束的单腿外骨骼机器人自适应式动平衡助行控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于模块结合面微观接触机理的模块化机器人动态特性分析与研究

国家自然科学基金

1+阅读 · 2015年12月31日

仿人轻型机械臂人机协作模式关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员