Toward Reliable Sim-to-Real Predictability for MoE-based Robust Quadrupedal Locomotion - 专知论文

会员服务 ·

0

本体 · 鲁棒 · 稳健 · 机器人 · 复杂地形 ·

Toward Reliable Sim-to-Real Predictability for MoE-based Robust Quadrupedal Locomotion

翻译：迈向基于MoE的稳健四足运动可靠仿真到现实可预测性

Tianyang Wu,Hanwei Guo,Yuhang Wang,Junshu Yang,Xinyang Sui,Jiayi Xie,Xingyu Chen,Zeyang Liu,Xuguang Lan

from arxiv, fix RoboGauge linear velocity metric, friction error; update radar fig (page 1), score tables (page 6,7); fix obs stack bug

Reinforcement learning has shown strong promise for quadrupedal agile locomotion, even with proprioception-only sensing. In practice, however, sim-to-real gap and reward overfitting in complex terrains can produce policies that fail to transfer, while physical validation remains risky and inefficient. To address these challenges, we introduce a unified framework encompassing a Mixture-of-Experts (MoE) locomotion policy for robust multi-terrain representation with RoboGauge, a predictive assessment suite that quantifies sim-to-real transferability. The MoE policy employs a gated set of specialist experts to decompose latent terrain and command modeling, achieving superior deployment robustness and generalization via proprioception alone. RoboGauge further provides multi-dimensional proprioception-based metrics via sim-to-sim tests over terrains, difficulty levels, and domain randomizations, enabling reliable MoE policy selection without extensive physical trials. Experiments on a Unitree Go2 demonstrate robust locomotion on unseen challenging terrains, including snow, sand, stairs, slopes, and 30 cm obstacles. In dedicated high-speed tests, the robot reaches 4 m/s and exhibits an emergent narrow-width gait associated with improved stability at high velocity.

翻译：强化学习已展现出实现四足敏捷运动的巨大潜力，即使在仅使用本体感知的情况下。然而在实践中，仿真到现实的差异以及复杂地形中的奖励过拟合可能导致策略无法成功迁移，而物理验证仍然存在风险且效率低下。为解决这些挑战，我们提出了一个统一框架，包含用于鲁棒多地形表征的混合专家（MoE）运动策略，以及RoboGauge——一个量化仿真到现实可迁移性的预测评估套件。MoE策略采用门控机制组合专业专家集合，通过分解潜在地形与指令建模，仅依靠本体感知即实现卓越的部署鲁棒性和泛化能力。RoboGauge进一步通过跨地形、难度等级和领域随机化的仿真到仿真测试，提供多维度基于本体感知的度量指标，从而无需大量物理试验即可实现可靠的MoE策略选择。在Unitree Go2机器人上的实验表明，该系统能在未见过的挑战性地形（包括雪地、沙地、楼梯、斜坡和30厘米障碍物）上实现鲁棒运动。在专项高速测试中，机器人速度达到4米/秒，并表现出与高速稳定性提升相关的涌现性窄步态。

0

相关内容

《迈向可解释强化学习及面向战略决策的定制化学习基准》（70页）

《迈向可解释强化学习及面向战略决策的定制化学习基准》（70页）

专知会员服务

16+阅读 · 4月18日

【牛津博士论文】面向长时程决策任务的高效智能体训练方法

【牛津博士论文】面向长时程决策任务的高效智能体训练方法

专知会员服务

19+阅读 · 3月27日

《基于分层多智能体强化学习的逼真空战协同策略》

《基于分层多智能体强化学习的逼真空战协同策略》

专知会员服务

47+阅读 · 2025年10月30日

【MIT博士论文】从数据到模型，再回到数据：构建可预测且可靠的机器学习系统”

【MIT博士论文】从数据到模型，再回到数据：构建可预测且可靠的机器学习系统”

专知会员服务

23+阅读 · 2025年6月19日

【ICLR2025】无噪声自我运动与噪声视频三维重建的可扩展基准测试与鲁棒学习

【ICLR2025】无噪声自我运动与噪声视频三维重建的可扩展基准测试与鲁棒学习

专知会员服务

8+阅读 · 2025年1月27日

深度学习如何可信？港理工等最新《2D和3D深度学习模型对抗性攻击的鲁棒性和安全性》综述，涵盖170篇论文

深度学习如何可信？港理工等最新《2D和3D深度学习模型对抗性攻击的鲁棒性和安全性》综述，涵盖170篇论文

专知会员服务

28+阅读 · 2023年10月3日

加州大学博士论文《多模态传感器系统的稳健可解释预测》

加州大学博士论文《多模态传感器系统的稳健可解释预测》

专知会员服务

64+阅读 · 2023年3月31日

《通过强化训练改善漂移——惯性传感器》2022最新64页技术报告，美太平洋海军信息战中心

《通过强化训练改善漂移——惯性传感器》2022最新64页技术报告，美太平洋海军信息战中心

专知会员服务

26+阅读 · 2022年11月23日

【ICLR2021】一种基于距离度量学习及行为正则化的完全离线的元强化学习方法

专知会员服务

17+阅读 · 2021年2月9日

最新《模仿学习 - Imitation Learning》教程，63页ppt，微软Kamil Ciosek

最新《模仿学习 - Imitation Learning》教程，63页ppt，微软Kamil Ciosek

专知会员服务

67+阅读 · 2020年8月22日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

27+阅读 · 2022年11月24日

《数字孪生仿真赋能要素及其在国防领域信息优势中的应用》2022最新16页技术报告，北约STO

《数字孪生仿真赋能要素及其在国防领域信息优势中的应用》2022最新16页技术报告，北约STO

专知

34+阅读 · 2022年10月26日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

66+阅读 · 2022年8月25日

强化学习的两大话题之一，仍有极大探索空间

强化学习的两大话题之一，仍有极大探索空间

AI科技评论

22+阅读 · 2020年8月22日

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

AINLP

11+阅读 · 2020年7月7日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

再发力！Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版，超越Hinton的SimCLR，刷新SOTA准确率

再发力！Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版，超越Hinton的SimCLR，刷新SOTA准确率

专知

48+阅读 · 2020年3月11日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

面向复杂环境的四足机器人自适应和快速稳定运动控制方法研究及应用

国家自然科学基金

0+阅读 · 2017年12月31日

野外环境下四足机器人地形辨识与可通过性评价方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于主-被动复合式变刚度柔性关节的四足机器人仿生机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向SEM的惯性粘滑驱动跨尺度精密运动机理和实现方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

移动增强现实中基于视觉—惯性传感器的混合跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

复杂场景下目标跟踪的表观建模研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于势场法的多智能体系统鲁棒自适应刚性编队控制

国家自然科学基金

3+阅读 · 2015年12月31日

基于形态改变的多体空间系统动力学建模、运动规划与最优控制

国家自然科学基金

0+阅读 · 2014年12月31日

运动目标间语义关系的时空建模及可视化研究

国家自然科学基金

1+阅读 · 2014年12月31日

压电智能作动器的高保真完整非线性动力学建模和高精度多通道运动协同同步控制系统一体化优化设计

国家自然科学基金

0+阅读 · 2014年12月31日

MAVEN: A Meta-Reinforcement Learning Framework for Varying-Dynamics Expertise in Agile Quadrotor Maneuvers

Arxiv

0+阅读 · 3月11日

NaviGait: Navigating Dynamically Feasible Gait Libraries using Deep Reinforcement Learning

Arxiv

0+阅读 · 3月10日

Towards Terrain-Aware Safe Locomotion for Quadrupedal Robots Using Proprioceptive Sensing

Arxiv

0+阅读 · 3月10日

SAC-Loco: Safe and Adjustable Compliant Quadrupedal Locomotion

Arxiv

0+阅读 · 3月7日

Robust Reinforcement Learning-Based Locomotion for Resource-Constrained Quadrupeds with Exteroceptive Sensing

Arxiv

0+阅读 · 2月18日

SENSE-STEP: Learning Sim-to-Real Locomotion for a Sensory-Enabled Soft Quadruped Robot

Arxiv

0+阅读 · 2月13日

Towards Dynamic Quadrupedal Gaits: A Symmetry-Guided RL Hierarchy Enables Free Gait Transitions at Varying Speeds

Arxiv

0+阅读 · 2月11日

LocoVLM: Grounding Vision and Language for Adapting Versatile Legged Locomotion Policies

Arxiv

0+阅读 · 2月11日

Learning Agile Quadrotor Flight in the Real World

Arxiv

0+阅读 · 2月10日

Feasibility-Guided Planning over Multi-Specialized Locomotion Policies

Arxiv

0+阅读 · 2月8日

VIP会员

文章信息

相关主题

最新内容

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

5+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

4+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

6+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

7+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

10+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

11+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

8+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

18+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

9+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

相关VIP内容

《迈向可解释强化学习及面向战略决策的定制化学习基准》（70页）

《迈向可解释强化学习及面向战略决策的定制化学习基准》（70页）

专知会员服务

16+阅读 · 4月18日

【牛津博士论文】面向长时程决策任务的高效智能体训练方法

【牛津博士论文】面向长时程决策任务的高效智能体训练方法

专知会员服务

19+阅读 · 3月27日

《基于分层多智能体强化学习的逼真空战协同策略》

《基于分层多智能体强化学习的逼真空战协同策略》

专知会员服务

47+阅读 · 2025年10月30日

【MIT博士论文】从数据到模型，再回到数据：构建可预测且可靠的机器学习系统”

【MIT博士论文】从数据到模型，再回到数据：构建可预测且可靠的机器学习系统”

专知会员服务

23+阅读 · 2025年6月19日

【ICLR2025】无噪声自我运动与噪声视频三维重建的可扩展基准测试与鲁棒学习

【ICLR2025】无噪声自我运动与噪声视频三维重建的可扩展基准测试与鲁棒学习

专知会员服务

8+阅读 · 2025年1月27日

深度学习如何可信？港理工等最新《2D和3D深度学习模型对抗性攻击的鲁棒性和安全性》综述，涵盖170篇论文

深度学习如何可信？港理工等最新《2D和3D深度学习模型对抗性攻击的鲁棒性和安全性》综述，涵盖170篇论文

专知会员服务

28+阅读 · 2023年10月3日

加州大学博士论文《多模态传感器系统的稳健可解释预测》

加州大学博士论文《多模态传感器系统的稳健可解释预测》

专知会员服务

64+阅读 · 2023年3月31日

《通过强化训练改善漂移——惯性传感器》2022最新64页技术报告，美太平洋海军信息战中心

《通过强化训练改善漂移——惯性传感器》2022最新64页技术报告，美太平洋海军信息战中心

专知会员服务

26+阅读 · 2022年11月23日

【ICLR2021】一种基于距离度量学习及行为正则化的完全离线的元强化学习方法

专知会员服务

17+阅读 · 2021年2月9日

最新《模仿学习 - Imitation Learning》教程，63页ppt，微软Kamil Ciosek

最新《模仿学习 - Imitation Learning》教程，63页ppt，微软Kamil Ciosek

专知会员服务

67+阅读 · 2020年8月22日

热门VIP内容

开通专知VIP会员享更多权益服务

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

相关资讯

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

27+阅读 · 2022年11月24日

《数字孪生仿真赋能要素及其在国防领域信息优势中的应用》2022最新16页技术报告，北约STO

《数字孪生仿真赋能要素及其在国防领域信息优势中的应用》2022最新16页技术报告，北约STO

专知

34+阅读 · 2022年10月26日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

66+阅读 · 2022年8月25日

强化学习的两大话题之一，仍有极大探索空间

强化学习的两大话题之一，仍有极大探索空间

AI科技评论

22+阅读 · 2020年8月22日

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

AINLP

11+阅读 · 2020年7月7日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

再发力！Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版，超越Hinton的SimCLR，刷新SOTA准确率

再发力！Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版，超越Hinton的SimCLR，刷新SOTA准确率

专知

48+阅读 · 2020年3月11日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

相关论文

MAVEN: A Meta-Reinforcement Learning Framework for Varying-Dynamics Expertise in Agile Quadrotor Maneuvers

Arxiv

0+阅读 · 3月11日

NaviGait: Navigating Dynamically Feasible Gait Libraries using Deep Reinforcement Learning

Arxiv

0+阅读 · 3月10日

Towards Terrain-Aware Safe Locomotion for Quadrupedal Robots Using Proprioceptive Sensing

Arxiv

0+阅读 · 3月10日

SAC-Loco: Safe and Adjustable Compliant Quadrupedal Locomotion

Arxiv

0+阅读 · 3月7日

Robust Reinforcement Learning-Based Locomotion for Resource-Constrained Quadrupeds with Exteroceptive Sensing

Arxiv

0+阅读 · 2月18日

SENSE-STEP: Learning Sim-to-Real Locomotion for a Sensory-Enabled Soft Quadruped Robot

Arxiv

0+阅读 · 2月13日

Towards Dynamic Quadrupedal Gaits: A Symmetry-Guided RL Hierarchy Enables Free Gait Transitions at Varying Speeds

Arxiv

0+阅读 · 2月11日

LocoVLM: Grounding Vision and Language for Adapting Versatile Legged Locomotion Policies

Arxiv

0+阅读 · 2月11日

Learning Agile Quadrotor Flight in the Real World

Arxiv

0+阅读 · 2月10日

Feasibility-Guided Planning over Multi-Specialized Locomotion Policies

Arxiv

0+阅读 · 2月8日

相关基金

面向复杂环境的四足机器人自适应和快速稳定运动控制方法研究及应用

国家自然科学基金

0+阅读 · 2017年12月31日

野外环境下四足机器人地形辨识与可通过性评价方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于主-被动复合式变刚度柔性关节的四足机器人仿生机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向SEM的惯性粘滑驱动跨尺度精密运动机理和实现方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

移动增强现实中基于视觉—惯性传感器的混合跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

复杂场景下目标跟踪的表观建模研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于势场法的多智能体系统鲁棒自适应刚性编队控制

国家自然科学基金

3+阅读 · 2015年12月31日

基于形态改变的多体空间系统动力学建模、运动规划与最优控制

国家自然科学基金

0+阅读 · 2014年12月31日

运动目标间语义关系的时空建模及可视化研究

国家自然科学基金

1+阅读 · 2014年12月31日

压电智能作动器的高保真完整非线性动力学建模和高精度多通道运动协同同步控制系统一体化优化设计

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员