HoRD：基于历史条件强化学习与在线蒸馏的鲁棒人形机器人控制 (HoRD: Robust Humanoid Control via History-Conditioned Reinforcement Learning and Online Distillation) - 专知论文

会员服务 ·

0

在线 · 鲁棒 · 蒸馏 · 机器人控制 · 机器人 ·

HoRD: Robust Humanoid Control via History-Conditioned Reinforcement Learning and Online Distillation

翻译：HoRD：基于历史条件强化学习与在线蒸馏的鲁棒人形机器人控制

Puyue Wang,Jiawei Hu,Yan Gao,Junyan Wang,Yu Zhang,Gillian Dobbie,Tao Gu,Wafa Johal,Ting Dang,Hong Jia

Humanoid robots can suffer significant performance drops under small changes in dynamics, task specifications, or environment setup. We propose HoRD, a two-stage learning framework for robust humanoid control under domain shift. First, we train a high-performance teacher policy via history-conditioned reinforcement learning, where the policy infers latent dynamics context from recent state--action trajectories to adapt online to diverse randomized dynamics. Second, we perform online distillation to transfer the teacher's robust control capabilities into a transformer-based student policy that operates on sparse root-relative 3D joint keypoint trajectories. By combining history-conditioned adaptation with online distillation, HoRD enables a single policy to adapt zero-shot to unseen domains without per-domain retraining. Extensive experiments show HoRD outperforms strong baselines in robustness and transfer, especially under unseen domains and external perturbations. Code and project page are available at https://tonywang-0517.github.io/hord/.

翻译：人形机器人在动力学、任务规范或环境设置发生微小变化时，其性能可能出现显著下降。本文提出HoRD——一种面向领域偏移下鲁棒人形机器人控制的两阶段学习框架。首先，我们通过历史条件强化学习训练一个高性能教师策略，该策略从近期的状态-动作轨迹中推断潜在动力学上下文，从而在线适应多样化的随机化动力学。其次，我们执行在线蒸馏，将教师的鲁棒控制能力迁移至基于Transformer的学生策略，该策略以稀疏的根相对三维关节关键点轨迹作为输入。通过将历史条件适应与在线蒸馏相结合，HoRD使得单一策略能够零样本适应未见领域，而无需针对每个领域重新训练。大量实验表明，HoRD在鲁棒性与迁移性方面均优于现有基线方法，尤其是在未见领域和外部扰动场景下。代码与项目页面详见 https://tonywang-0517.github.io/hord/。

0

相关内容

【博士论文】用于排序与扩散模型的安全、高效与鲁棒强化学习

【博士论文】用于排序与扩散模型的安全、高效与鲁棒强化学习

专知会员服务

11+阅读 · 2025年10月21日

【斯坦福大学博士论文】学习连续体机器人控制中的主要动力学

【斯坦福大学博士论文】学习连续体机器人控制中的主要动力学

专知会员服务

16+阅读 · 2025年4月19日

【CMU博士论文】基于课程学习的鲁棒强化学习

【CMU博士论文】基于课程学习的鲁棒强化学习

专知会员服务

20+阅读 · 2025年3月27日

【斯坦福博士论文】大模型驱动的鲁棒机器学习，243页pdf

【斯坦福博士论文】大模型驱动的鲁棒机器学习，243页pdf

专知会员服务

59+阅读 · 2023年7月10日

【伯克利博士论文】现实世界机器人系统控制的鲁棒机器学习

【伯克利博士论文】现实世界机器人系统控制的鲁棒机器学习

专知会员服务

25+阅读 · 2023年5月21日

【CMU博士论文】鲁棒机器人操作的结构化先验学习，302页pdf

【CMU博士论文】鲁棒机器人操作的结构化先验学习，302页pdf

专知会员服务

25+阅读 · 2022年12月4日

《电力系统机器学习的鲁棒性》美海军研究生院2022最新64页论文

《电力系统机器学习的鲁棒性》美海军研究生院2022最新64页论文

专知会员服务

25+阅读 · 2022年11月2日

【硬核书】多无人机鲁棒编队控制，145页pdf

【硬核书】多无人机鲁棒编队控制，145页pdf

专知会员服务

80+阅读 · 2022年10月14日

【ICML2022】鲁棒强化学习的策略梯度法

【ICML2022】鲁棒强化学习的策略梯度法

专知会员服务

38+阅读 · 2022年5月21日

《人工智能在混合战争中的鲁棒性》美英德等8个国家的9个国防单位联合发表

《人工智能在混合战争中的鲁棒性》美英德等8个国家的9个国防单位联合发表

专知会员服务

91+阅读 · 2022年5月3日

【硬核书】《现代机器人学：机构、规划与控制》，642页pdf

【硬核书】《现代机器人学：机构、规划与控制》，642页pdf

专知

13+阅读 · 2022年5月2日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

中国自动化学会

11+阅读 · 2019年6月18日

使用强化学习训练机械臂完成人类任务

使用强化学习训练机械臂完成人类任务

AI研习社

14+阅读 · 2019年3月23日

【Science机器人2019子刊AI5篇新论文】不止模仿：通过学习概念的认知程序实现机器人零数据任务迁移

【Science机器人2019子刊AI5篇新论文】不止模仿：通过学习概念的认知程序实现机器人零数据任务迁移

专知

10+阅读 · 2019年1月18日

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

产业智能官

13+阅读 · 2019年1月17日

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

产业智能官

16+阅读 · 2018年12月27日

【机器人】机器人PID控制

【机器人】机器人PID控制

产业智能官

10+阅读 · 2018年11月25日

【论文推荐】最新5篇聊天机器人（Chatbot）相关论文—深度强化学习、社交聊天机器人小冰、对话聊天助手、序列-序列、动态词汇

【论文推荐】最新5篇聊天机器人（Chatbot）相关论文—深度强化学习、社交聊天机器人小冰、对话聊天助手、序列-序列、动态词汇

专知

23+阅读 · 2018年1月30日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

共融机器人战略规划研究和学术交流

国家自然科学基金

13+阅读 · 2016年12月31日

面向类人机器人动作规划的参数最优控制技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

网络化遥操作多机器人系统时滞相关控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

多旋翼无人飞行器大机动轨迹跟踪飞行非线性鲁棒控制

国家自然科学基金

2+阅读 · 2015年12月31日

基于刚柔-机电耦合的主动约束层阻尼柔性机器人动力学建模与振动控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

仿人轻型机械臂人机协作模式关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于势场法的多智能体系统鲁棒自适应刚性编队控制

国家自然科学基金

3+阅读 · 2015年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

Robust Reinforcement Learning-Based Locomotion for Resource-Constrained Quadrupeds with Exteroceptive Sensing

Arxiv

0+阅读 · 2月18日

General Humanoid Whole-Body Control via Pretraining and Fast Adaptation

Arxiv

0+阅读 · 2月12日

HAIC: Humanoid Agile Object Interaction Control via Dynamics-Aware World Model

Arxiv

0+阅读 · 2月12日

HuMam: Humanoid Motion Control via End-to-End Deep Reinforcement Learning with Mamba

Arxiv

0+阅读 · 2月11日

Scalable and General Whole-Body Control for Cross-Humanoid Locomotion

Arxiv

0+阅读 · 2月5日

CMR: Contractive Mapping Embeddings for Robust Humanoid Locomotion on Unstructured Terrains

Arxiv

0+阅读 · 2月3日

Embodiment-Aware Generalist Specialist Distillation for Unified Humanoid Whole-Body Control

Arxiv

0+阅读 · 2月3日

RAPT: Model-Predictive Out-of-Distribution Detection and Failure Diagnosis for Sim-to-Real Humanoid Robots

Arxiv

0+阅读 · 2月2日

Robust and Generalized Humanoid Motion Tracking

Arxiv

0+阅读 · 1月30日

HAFO: A Force-Adaptive Control Framework for Humanoid Robots in Intense Interaction Environments

Arxiv

0+阅读 · 1月29日

VIP会员

文章信息

相关主题

机器人控制

相关VIP内容

【博士论文】用于排序与扩散模型的安全、高效与鲁棒强化学习

【博士论文】用于排序与扩散模型的安全、高效与鲁棒强化学习

专知会员服务

11+阅读 · 2025年10月21日

【斯坦福大学博士论文】学习连续体机器人控制中的主要动力学

【斯坦福大学博士论文】学习连续体机器人控制中的主要动力学

专知会员服务

16+阅读 · 2025年4月19日

【CMU博士论文】基于课程学习的鲁棒强化学习

【CMU博士论文】基于课程学习的鲁棒强化学习

专知会员服务

20+阅读 · 2025年3月27日

【斯坦福博士论文】大模型驱动的鲁棒机器学习，243页pdf

【斯坦福博士论文】大模型驱动的鲁棒机器学习，243页pdf

专知会员服务

59+阅读 · 2023年7月10日

【伯克利博士论文】现实世界机器人系统控制的鲁棒机器学习

【伯克利博士论文】现实世界机器人系统控制的鲁棒机器学习

专知会员服务

25+阅读 · 2023年5月21日

【CMU博士论文】鲁棒机器人操作的结构化先验学习，302页pdf

【CMU博士论文】鲁棒机器人操作的结构化先验学习，302页pdf

专知会员服务

25+阅读 · 2022年12月4日

《电力系统机器学习的鲁棒性》美海军研究生院2022最新64页论文

《电力系统机器学习的鲁棒性》美海军研究生院2022最新64页论文

专知会员服务

25+阅读 · 2022年11月2日

【硬核书】多无人机鲁棒编队控制，145页pdf

【硬核书】多无人机鲁棒编队控制，145页pdf

专知会员服务

80+阅读 · 2022年10月14日

【ICML2022】鲁棒强化学习的策略梯度法

【ICML2022】鲁棒强化学习的策略梯度法

专知会员服务

38+阅读 · 2022年5月21日

《人工智能在混合战争中的鲁棒性》美英德等8个国家的9个国防单位联合发表

《人工智能在混合战争中的鲁棒性》美英德等8个国家的9个国防单位联合发表

专知会员服务

91+阅读 · 2022年5月3日

热门VIP内容

开通专知VIP会员享更多权益服务

《可信人工智能赋能系统的支柱》

《从经典神经网络到不确定性下的拓扑神经网络：军事应用》2026最新40页报告

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

《人工智能：对战略与力量的影响》slides

相关资讯

【硬核书】《现代机器人学：机构、规划与控制》，642页pdf

【硬核书】《现代机器人学：机构、规划与控制》，642页pdf

专知

13+阅读 · 2022年5月2日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

中国自动化学会

11+阅读 · 2019年6月18日

使用强化学习训练机械臂完成人类任务

使用强化学习训练机械臂完成人类任务

AI研习社

14+阅读 · 2019年3月23日

【Science机器人2019子刊AI5篇新论文】不止模仿：通过学习概念的认知程序实现机器人零数据任务迁移

【Science机器人2019子刊AI5篇新论文】不止模仿：通过学习概念的认知程序实现机器人零数据任务迁移

专知

10+阅读 · 2019年1月18日

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

产业智能官

13+阅读 · 2019年1月17日

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

产业智能官

16+阅读 · 2018年12月27日

【机器人】机器人PID控制

【机器人】机器人PID控制

产业智能官

10+阅读 · 2018年11月25日

【论文推荐】最新5篇聊天机器人（Chatbot）相关论文—深度强化学习、社交聊天机器人小冰、对话聊天助手、序列-序列、动态词汇

【论文推荐】最新5篇聊天机器人（Chatbot）相关论文—深度强化学习、社交聊天机器人小冰、对话聊天助手、序列-序列、动态词汇

专知

23+阅读 · 2018年1月30日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

Robust Reinforcement Learning-Based Locomotion for Resource-Constrained Quadrupeds with Exteroceptive Sensing

Arxiv

0+阅读 · 2月18日

General Humanoid Whole-Body Control via Pretraining and Fast Adaptation

Arxiv

0+阅读 · 2月12日

HAIC: Humanoid Agile Object Interaction Control via Dynamics-Aware World Model

Arxiv

0+阅读 · 2月12日

HuMam: Humanoid Motion Control via End-to-End Deep Reinforcement Learning with Mamba

Arxiv

0+阅读 · 2月11日

Scalable and General Whole-Body Control for Cross-Humanoid Locomotion

Arxiv

0+阅读 · 2月5日

CMR: Contractive Mapping Embeddings for Robust Humanoid Locomotion on Unstructured Terrains

Arxiv

0+阅读 · 2月3日

Embodiment-Aware Generalist Specialist Distillation for Unified Humanoid Whole-Body Control

Arxiv

0+阅读 · 2月3日

RAPT: Model-Predictive Out-of-Distribution Detection and Failure Diagnosis for Sim-to-Real Humanoid Robots

Arxiv

0+阅读 · 2月2日

Robust and Generalized Humanoid Motion Tracking

Arxiv

0+阅读 · 1月30日

HAFO: A Force-Adaptive Control Framework for Humanoid Robots in Intense Interaction Environments

Arxiv

0+阅读 · 1月29日

相关基金

共融机器人战略规划研究和学术交流

国家自然科学基金

13+阅读 · 2016年12月31日

面向类人机器人动作规划的参数最优控制技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

网络化遥操作多机器人系统时滞相关控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

多旋翼无人飞行器大机动轨迹跟踪飞行非线性鲁棒控制

国家自然科学基金

2+阅读 · 2015年12月31日

基于刚柔-机电耦合的主动约束层阻尼柔性机器人动力学建模与振动控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

仿人轻型机械臂人机协作模式关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于势场法的多智能体系统鲁棒自适应刚性编队控制

国家自然科学基金

3+阅读 · 2015年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员