RPL: Learning Robust Humanoid Perceptive Locomotion on Challenging Terrains - 专知论文

会员服务 ·

0

鲁棒 · 蒸馏 · 负载 · 系统 · 网格 ·

RPL: Learning Robust Humanoid Perceptive Locomotion on Challenging Terrains

翻译：RPL：在挑战性地形上学习鲁棒的人形感知运动

Yuanhang Zhang,Younggyo Seo,Juyue Chen,Yifu Yuan,Koushil Sreenath,Pieter Abbeel,Carmelo Sferrazza,Karen Liu,Rocky Duan,Guanya Shi

Humanoid perceptive locomotion has made significant progress and shows great promise, yet achieving robust multi-directional locomotion on complex terrains remains underexplored. To tackle this challenge, we propose RPL, a two-stage training framework that enables multi-directional locomotion on challenging terrains, and remains robust with payloads. RPL first trains terrain-specific expert policies with privileged height map observations to master decoupled locomotion and manipulation skills across different terrains, and then distills them into a transformer policy that leverages multiple depth cameras to cover a wide range of views. During distillation, we introduce two techniques to robustify multi-directional locomotion, depth feature scaling based on velocity commands and random side masking, which are critical for asymmetric depth observations and unseen widths of terrains. For scalable depth distillation, we develop an efficient multi-depth system that ray-casts against both dynamic robot meshes and static terrain meshes in massively parallel environments, achieving a 5-times speedup over the depth rendering pipelines in existing simulators while modeling realistic sensor latency, noise, and dropout. Extensive real-world experiments demonstrate robust multi-directional locomotion with payloads (2kg) across challenging terrains, including 20° slopes, staircases with different step lengths (22 cm, 25 cm, 30 cm), and 25 cm by 25 cm stepping stones separated by 60 cm gaps.

翻译：人形感知运动已取得显著进展并展现出巨大潜力，然而在复杂地形上实现鲁棒的多向运动仍待深入探索。为应对这一挑战，我们提出RPL——一个两阶段训练框架，该框架能够在挑战性地形上实现多向运动，并在负载条件下保持鲁棒性。RPL首先利用特权高度图观测训练地形专用专家策略，以掌握不同地形下的解耦运动与操作技能，随后将其蒸馏至一个基于Transformer的策略中，该策略利用多个深度摄像头覆盖广视角范围。在蒸馏过程中，我们引入两项技术以增强多向运动的鲁棒性：基于速度指令的深度特征缩放与随机侧面掩蔽，这对处理非对称深度观测及未知地形宽度至关重要。为实现可扩展的深度蒸馏，我们开发了高效多深度系统，在大规模并行环境中同时对动态机器人网格与静态地形网格进行光线投射，在模拟真实传感器延迟、噪声和信号丢失的同时，相比现有模拟器的深度渲染管线实现了5倍加速。大量真实世界实验证明，该系统能在负载条件下（2公斤）在包括20°斜坡、不同阶高楼梯（22厘米、25厘米、30厘米）及间距60厘米的25厘米×25厘米踏石等挑战性地形上实现鲁棒的多向运动。

0

相关内容

人机协同作战规划：来自美海军陆战队的大语言模型（LLM）使用教训

人机协同作战规划：来自美海军陆战队的大语言模型（LLM）使用教训

专知会员服务

27+阅读 · 2025年10月16日

【KDD2024】MAML-en-LLM: 用于改进上下文学习的大型语言模型的模型无关元训练

【KDD2024】MAML-en-LLM: 用于改进上下文学习的大型语言模型的模型无关元训练

专知会员服务

19+阅读 · 2024年5月21日

军事目标分类《利用相邻视频帧提高卷积神经网络在压力环境下的分类鲁棒性》美陆军2023最新报告

军事目标分类《利用相邻视频帧提高卷积神经网络在压力环境下的分类鲁棒性》美陆军2023最新报告

专知会员服务

28+阅读 · 2023年9月7日

DARPA能力感知机器学习（CAML）项目《利用概率和抽象的能力感知自主学习(ALPACA)》2023最新30页技术报告

DARPA能力感知机器学习（CAML）项目《利用概率和抽象的能力感知自主学习(ALPACA)》2023最新30页技术报告

专知会员服务

69+阅读 · 2023年6月28日

《电力系统机器学习的鲁棒性》美海军研究生院2022最新64页论文

《电力系统机器学习的鲁棒性》美海军研究生院2022最新64页论文

专知会员服务

26+阅读 · 2022年11月2日

【ICML2022】鲁棒强化学习的策略梯度法

【ICML2022】鲁棒强化学习的策略梯度法

专知会员服务

38+阅读 · 2022年5月21日

图网络如何对抗防御？佐治亚理工最新《图脆弱性与鲁棒性》综述论文，概述图鲁棒性度量、攻击与防御

图网络如何对抗防御？佐治亚理工最新《图脆弱性与鲁棒性》综述论文，概述图鲁棒性度量、攻击与防御

专知会员服务

28+阅读 · 2022年4月7日

鲁棒表示学习简述

专知会员服务

26+阅读 · 2021年4月13日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知会员服务

80+阅读 · 2020年3月13日

【CCL 2019】许晶晶：基于对抗训练的机器学习鲁棒性分析-研究中的崎岖与思考

【CCL 2019】许晶晶：基于对抗训练的机器学习鲁棒性分析-研究中的崎岖与思考

专知会员服务

18+阅读 · 2019年11月12日

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

27+阅读 · 2022年11月24日

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

专知

68+阅读 · 2022年11月2日

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

专知

111+阅读 · 2022年4月28日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

使用强化学习训练机械臂完成人类任务

使用强化学习训练机械臂完成人类任务

AI研习社

14+阅读 · 2019年3月23日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

【泡泡点云时空】PPFNet：三维点鲁棒匹配的全局上下文感知局部特征（CVPR2018-9）

【泡泡点云时空】PPFNet：三维点鲁棒匹配的全局上下文感知局部特征（CVPR2018-9）

泡泡机器人SLAM

11+阅读 · 2018年8月22日

带有随机干扰的非齐次马尔科夫跳变系统的鲁棒滤波研究

国家自然科学基金

0+阅读 · 2015年12月31日

野外环境下四足机器人地形辨识与可通过性评价方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

空地机器人网络的同时视觉目标定位与分布式运动规划

国家自然科学基金

4+阅读 · 2015年12月31日

多旋翼无人飞行器大机动轨迹跟踪飞行非线性鲁棒控制

国家自然科学基金

2+阅读 · 2015年12月31日

儿童手写运动促进中英文感知的认知神经机制

国家自然科学基金

0+阅读 · 2015年12月31日

复杂场景下目标跟踪的表观建模研究

国家自然科学基金

2+阅读 · 2015年12月31日

地面运动装甲目标声震信号精细化特征提取与智能识别技术研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于势场法的多智能体系统鲁棒自适应刚性编队控制

国家自然科学基金

3+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

网络化环境下面向态势感知的多无人机协同控制与管理方法

国家自然科学基金

24+阅读 · 2011年12月31日

LHM-Humanoid: Learning a Unified Policy for Long-Horizon Humanoid Whole-Body Loco-Manipulation in Diverse Messy Environments

Arxiv

0+阅读 · 3月5日

Robust Reinforcement Learning-Based Locomotion for Resource-Constrained Quadrupeds with Exteroceptive Sensing

Arxiv

0+阅读 · 2月18日

Perceptive Humanoid Parkour: Chaining Dynamic Human Skills via Motion Matching

Arxiv

0+阅读 · 2月17日

TCRL: Temporal-Coupled Adversarial Training for Robust Constrained Reinforcement Learning in Worst-Case Scenarios

Arxiv

0+阅读 · 2月13日

APEX: Learning Adaptive High-Platform Traversal for Humanoid Robots

Arxiv

0+阅读 · 2月11日

Robust Reinforcement Learning from Human Feedback for Large Language Models Fine-Tuning

Arxiv

0+阅读 · 2月10日

Now You See That: Learning End-to-End Humanoid Locomotion from Raw Pixels

Arxiv

0+阅读 · 2月6日

Learning Soccer Skills for Humanoid Robots: A Progressive Perception-Action Framework

Arxiv

0+阅读 · 2月5日

HoRD: Robust Humanoid Control via History-Conditioned Reinforcement Learning and Online Distillation

Arxiv

0+阅读 · 2月5日

3D Dynamics-Aware Manipulation: Endowing Manipulation Policies with 3D Foresight

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

最新内容

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

10+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

6+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

6+阅读 · 7月19日

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

7+阅读 · 7月19日

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

10+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

8+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

13+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

8+阅读 · 7月18日

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

10+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

10+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

6+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

5+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

8+阅读 · 7月17日

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

6+阅读 · 7月17日

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

7+阅读 · 7月17日

相关VIP内容

人机协同作战规划：来自美海军陆战队的大语言模型（LLM）使用教训

人机协同作战规划：来自美海军陆战队的大语言模型（LLM）使用教训

专知会员服务

27+阅读 · 2025年10月16日

【KDD2024】MAML-en-LLM: 用于改进上下文学习的大型语言模型的模型无关元训练

【KDD2024】MAML-en-LLM: 用于改进上下文学习的大型语言模型的模型无关元训练

专知会员服务

19+阅读 · 2024年5月21日

军事目标分类《利用相邻视频帧提高卷积神经网络在压力环境下的分类鲁棒性》美陆军2023最新报告

军事目标分类《利用相邻视频帧提高卷积神经网络在压力环境下的分类鲁棒性》美陆军2023最新报告

专知会员服务

28+阅读 · 2023年9月7日

DARPA能力感知机器学习（CAML）项目《利用概率和抽象的能力感知自主学习(ALPACA)》2023最新30页技术报告

DARPA能力感知机器学习（CAML）项目《利用概率和抽象的能力感知自主学习(ALPACA)》2023最新30页技术报告

专知会员服务

69+阅读 · 2023年6月28日

《电力系统机器学习的鲁棒性》美海军研究生院2022最新64页论文

《电力系统机器学习的鲁棒性》美海军研究生院2022最新64页论文

专知会员服务

26+阅读 · 2022年11月2日

【ICML2022】鲁棒强化学习的策略梯度法

【ICML2022】鲁棒强化学习的策略梯度法

专知会员服务

38+阅读 · 2022年5月21日

图网络如何对抗防御？佐治亚理工最新《图脆弱性与鲁棒性》综述论文，概述图鲁棒性度量、攻击与防御

图网络如何对抗防御？佐治亚理工最新《图脆弱性与鲁棒性》综述论文，概述图鲁棒性度量、攻击与防御

专知会员服务

28+阅读 · 2022年4月7日

鲁棒表示学习简述

专知会员服务

26+阅读 · 2021年4月13日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知会员服务

80+阅读 · 2020年3月13日

【CCL 2019】许晶晶：基于对抗训练的机器学习鲁棒性分析-研究中的崎岖与思考

【CCL 2019】许晶晶：基于对抗训练的机器学习鲁棒性分析-研究中的崎岖与思考

专知会员服务

18+阅读 · 2019年11月12日

热门VIP内容

开通专知VIP会员享更多权益服务

锻造未来士兵：外骨骼、基因工程与赛博格

《无人机蜂群通信技术研究》50页

深入Project Maven：为何人工智能在战场上依然失灵

《无人机系统（UAS）通信网状网络试验性部署》50页报告

相关资讯

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

27+阅读 · 2022年11月24日

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

专知

68+阅读 · 2022年11月2日

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

专知

111+阅读 · 2022年4月28日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

使用强化学习训练机械臂完成人类任务

使用强化学习训练机械臂完成人类任务

AI研习社

14+阅读 · 2019年3月23日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

【泡泡点云时空】PPFNet：三维点鲁棒匹配的全局上下文感知局部特征（CVPR2018-9）

【泡泡点云时空】PPFNet：三维点鲁棒匹配的全局上下文感知局部特征（CVPR2018-9）

泡泡机器人SLAM

11+阅读 · 2018年8月22日

相关论文

LHM-Humanoid: Learning a Unified Policy for Long-Horizon Humanoid Whole-Body Loco-Manipulation in Diverse Messy Environments

Arxiv

0+阅读 · 3月5日

Robust Reinforcement Learning-Based Locomotion for Resource-Constrained Quadrupeds with Exteroceptive Sensing

Arxiv

0+阅读 · 2月18日

Perceptive Humanoid Parkour: Chaining Dynamic Human Skills via Motion Matching

Arxiv

0+阅读 · 2月17日

TCRL: Temporal-Coupled Adversarial Training for Robust Constrained Reinforcement Learning in Worst-Case Scenarios

Arxiv

0+阅读 · 2月13日

APEX: Learning Adaptive High-Platform Traversal for Humanoid Robots

Arxiv

0+阅读 · 2月11日

Robust Reinforcement Learning from Human Feedback for Large Language Models Fine-Tuning

Arxiv

0+阅读 · 2月10日

Now You See That: Learning End-to-End Humanoid Locomotion from Raw Pixels

Arxiv

0+阅读 · 2月6日

Learning Soccer Skills for Humanoid Robots: A Progressive Perception-Action Framework

Arxiv

0+阅读 · 2月5日

HoRD: Robust Humanoid Control via History-Conditioned Reinforcement Learning and Online Distillation

Arxiv

0+阅读 · 2月5日

3D Dynamics-Aware Manipulation: Endowing Manipulation Policies with 3D Foresight

Arxiv

0+阅读 · 2月2日

相关基金

带有随机干扰的非齐次马尔科夫跳变系统的鲁棒滤波研究

国家自然科学基金

0+阅读 · 2015年12月31日

野外环境下四足机器人地形辨识与可通过性评价方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

空地机器人网络的同时视觉目标定位与分布式运动规划

国家自然科学基金

4+阅读 · 2015年12月31日

多旋翼无人飞行器大机动轨迹跟踪飞行非线性鲁棒控制

国家自然科学基金

2+阅读 · 2015年12月31日

儿童手写运动促进中英文感知的认知神经机制

国家自然科学基金

0+阅读 · 2015年12月31日

复杂场景下目标跟踪的表观建模研究

国家自然科学基金

2+阅读 · 2015年12月31日

地面运动装甲目标声震信号精细化特征提取与智能识别技术研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于势场法的多智能体系统鲁棒自适应刚性编队控制

国家自然科学基金

3+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

网络化环境下面向态势感知的多无人机协同控制与管理方法

国家自然科学基金

24+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员