This paper addresses the problem of training a reinforcement learning (RL) policy under partial observability by exploiting a privileged, anytime-feasible planner agent available exclusively during training. We formalize this as a Partially Observable Markov Decision Process (POMDP) in which a planner agent with access to an approximate dynamical model and privileged state information guides a learning agent that observes only a lossy projection of the true state. To realize this framework, we introduce an anytime-feasible Model Predictive Control (MPC) algorithm that serves as the planner agent. For the learning agent, we propose Planner-to-Policy Soft Actor-Critic (P2P-SAC), a method that distills the planner agent's privileged knowledge to mitigate partial observability and thereby improve both sample efficiency and final policy performance. We support this framework with rigorous theoretical analysis. Finally, we validate our approach in simulation using NVIDIA Isaac Lab and successfully deploy it on a real-world Unitree Go2 quadruped navigating complex, obstacle-rich environments.


翻译:本文研究利用仅在训练时可用的特权、随时可行性规划器智能体来训练部分可观测条件下的强化学习策略问题。我们将此形式化为一个部分可观测马尔可夫决策过程(POMDP),其中,一个可访问近似动力学模型和特权状态信息的规划器智能体,引导一个仅观测真实状态有损投影的学习智能体。为实现该框架,我们引入了一种用作规划器智能体的随时可行性模型预测控制(MPC)算法。对于学习智能体,我们提出了规划器到策略软演员-评论家(P2P-SAC)方法,该方法通过蒸馏规划器智能体的特权知识来缓解部分可观测性,从而提高样本效率和最终策略性能。我们为该框架提供了严格的理论分析支持。最后,我们使用NVIDIA Isaac Lab在仿真环境中验证了该方法,并在现实世界的Unitree Go2四足机器人上成功部署,使其能够在复杂且充满障碍物的环境中导航。

0
下载
关闭预览

相关内容

《可解释性强化学习模型》
专知会员服务
25+阅读 · 2月24日
基于模型的强化学习综述
专知会员服务
48+阅读 · 2023年1月9日
谷歌大脑《自动强化学习》教程,81页ppt!
专知会员服务
68+阅读 · 2022年8月15日
【普林斯顿-Mengdi Wang】强化学习统计复杂度,35页ppt
专知会员服务
21+阅读 · 2020年11月15日
多智能体强化学习(MARL)近年研究概览
PaperWeekly
38+阅读 · 2020年3月15日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
【深度强化学习教程】高质量PyTorch实现集锦
548页MIT强化学习教程,收藏备用【PDF下载】
机器学习算法与Python学习
17+阅读 · 2018年10月11日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员