We propose a contact-explicit hierarchical architecture coupling Reinforcement Learning (RL) and Model Predictive Control (MPC), where a high-level RL agent provides gait and navigation commands to a low-level locomotion MPC. This offloads the combinatorial burden of contact timing from the MPC by learning acyclic gaits through trial and error in simulation. We show that only a minimal set of rewards and limited tuning are required to obtain effective policies. We validate the architecture in simulation across robotic platforms spanning 50 kg to 120 kg and different MPC implementations, observing the emergence of acyclic gaits and timing adaptations in flat-terrain legged and hybrid locomotion, and further demonstrating extensibility to non-flat terrains. Across all platforms, we achieve zero-shot sim-to-sim transfer without domain randomization, and we further demonstrate zero-shot sim-to-real transfer without domain randomization on Centauro, our 120 kg wheeled-legged humanoid robot. We make our software framework and evaluation results publicly available at https://github.com/AndrePatri/AugMPC.


翻译:我们提出了一种显式接触的分层架构,将强化学习与模型预测控制相结合,其中高层强化学习智能体向底层运动模型预测控制器提供步态与导航指令。该方法通过在仿真环境中进行试错学习非周期步态,从而将接触时序的组合优化负担从模型预测控制器中剥离。研究表明,仅需最小化的奖励集合与有限的参数调整即可获得有效策略。我们在仿真环境中验证了该架构在50公斤至120公斤不同机器人平台及多种模型预测控制实现方案上的适用性,观察到在平坦地形腿式与混合式运动中非周期步态与时序适应能力的涌现,并进一步证明了其在非平坦地形上的扩展性。在所有平台上,我们无需领域随机化即可实现零样本仿真到仿真的迁移,并在Centauro(我们研制的120公斤轮腿式人形机器人)上进一步展示了无需领域随机化的零样本仿真到实物的迁移。我们的软件框架与评估结果已在https://github.com/AndrePatri/AugMPC公开。

0
下载
关闭预览

相关内容

《基于分层多智能体强化学习的逼真空战协同策略》
专知会员服务
44+阅读 · 2025年10月30日
《深度强化学习在集群系统中的应用》31页论文
专知会员服务
60+阅读 · 2023年3月14日
基于模型的强化学习综述
专知会员服务
149+阅读 · 2022年7月13日
专知会员服务
66+阅读 · 2021年4月22日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
基于强化学习的量化交易框架
机器学习研究会
30+阅读 · 2018年2月22日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
VIP会员
最新内容
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
0+阅读 · 今天16:48
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
3+阅读 · 今天14:04
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
6+阅读 · 今天13:49
基于声学的无人机检测技术综述
专知会员服务
5+阅读 · 今天13:37
《当代混合战争分析框架:俄乌战争经验教训》
专知会员服务
5+阅读 · 今天13:11
战略前沿人工智能的再思考(中文)
专知会员服务
7+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
5+阅读 · 5月29日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员