HOLO-MPPI: Multi-Scenario Motion Planning via Hierarchical Policy Optimization - 专知论文

会员服务 ·

0

多场景 · 在线 · 运动规划 · 分层 · 策略优化 ·

HOLO-MPPI: Multi-Scenario Motion Planning via Hierarchical Policy Optimization

翻译：HOLO-MPPI：基于分层策略优化的多场景运动规划

Youngjae Min,Jovin D'sa,Faizan M. Tariq,David Isele,Navid Azizan,Sangjae Bae

Robots deployed in the real world must plan motions across diverse scenarios without per-scenario retuning. End-to-end reinforcement learning (RL) can generalize across scenarios but often becomes brittle under distribution shift, reward misspecification, and stochastic interactions. Model predictive path integral (MPPI) control enables strong real-time refinement without gradients, but its performance depends on a well-shaped sampling prior, while manually designing the priors does not scale to multi-scenario deployment. We present HOLO-MPPI (High-level Offline, Low-level Online MPPI), a multi-scenario motion planning framework that combines high-level policy learning with low-level stochastic optimal control. Offline, we learn a high-level policy that proposes scenario-robust plans in an abstract action space, with a learned world model for online rollout. Online, the policy serves as a data-driven prior generator that parameterizes MPPI's sampling distribution conditioned on the current observation and goal. MPPI then optimizes low-level control sequences around this prior in real time to adapt to local disturbances. We instantiate HOLO-MPPI in autonomous driving by designing an effective high-level action space and tailored model architectures. Our evaluation across diverse driving scenarios shows that HOLO-MPPI improves upon MPPI and end-to-end RL baselines while maintaining real-time control.

翻译：部署于真实世界的机器人必须在无需针对每个场景重新调参的情况下，跨不同场景规划运动。端到端强化学习虽能泛化至多场景，但在分布偏移、奖励错配及随机交互下往往变得脆弱。模型预测路径积分控制无需梯度即可实现强实时优化，但其性能依赖于良好构造的采样先验，而人工设计先验无法扩展至多场景部署。我们提出HOLO-MPPI（高层离线、低层在线MPPI），一种结合高层策略学习与低层随机最优控制的多场景运动规划框架。离线阶段，我们在抽象动作空间中学习可提出鲁棒性场景规划的高层策略，并利用所学世界模型进行在线推演；在线阶段，该策略作为数据驱动的先验生成器，基于当前观测与目标参数化MPPI的采样分布。随后，MPPI围绕该先验实时优化低层控制序列，以适应局部扰动。我们通过设计高效高层动作空间与定制化模型架构，将HOLO-MPPI应用于自动驾驶。跨多种驾驶场景的评估表明，HOLO-MPPI在保持实时控制能力的同时，优于MPPI及端到端强化学习基线方法。

0

相关内容

多场景

《人机协作中的自适应任务规划与动态角色分配》最新30页报告

《人机协作中的自适应任务规划与动态角色分配》最新30页报告

专知会员服务

27+阅读 · 2025年11月21日

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

专知会员服务

27+阅读 · 2025年11月17日

《基于分层多智能体强化学习的逼真空战协同策略》

《基于分层多智能体强化学习的逼真空战协同策略》

专知会员服务

47+阅读 · 2025年10月30日

《基于人工智能的动态任务分配策略在多智能体系统中的有效控制》

《基于人工智能的动态任务分配策略在多智能体系统中的有效控制》

专知会员服务

55+阅读 · 2025年6月10日

中文版 | 集中式与分布式多智能体AI协调策略

中文版 | 集中式与分布式多智能体AI协调策略

专知会员服务

22+阅读 · 2025年5月8日

【斯坦福博士论文】时序平滑性假设下的深度神经网络自适应与正则化方法

【斯坦福博士论文】时序平滑性假设下的深度神经网络自适应与正则化方法

专知会员服务

15+阅读 · 2025年3月25日

多智能体协同决策研究全景透视：应用场景、研究方法、挑战与未来展望

多智能体协同决策研究全景透视：应用场景、研究方法、挑战与未来展望

专知会员服务

47+阅读 · 2025年3月20日

《模拟军事单元的多目标优化策略》美陆军DEVCOM SC

《模拟军事单元的多目标优化策略》美陆军DEVCOM SC

专知会员服务

47+阅读 · 2023年11月13日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

多模态预训练模型简述

多模态预训练模型简述

专知会员服务

115+阅读 · 2021年4月27日

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

33+阅读 · 2022年10月17日

浅谈主动学习（Active Learning）

浅谈主动学习（Active Learning）

凡人机器学习

32+阅读 · 2020年6月18日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知

14+阅读 · 2019年10月9日

【泡泡图灵智库】竞争协作：深度，相机运动，光流和运动分割的联合无监督学习（CVPR）

【泡泡图灵智库】竞争协作：深度，相机运动，光流和运动分割的联合无监督学习（CVPR）

泡泡机器人SLAM

11+阅读 · 2019年6月23日

MaskFusion: 多运动目标实时识别、跟踪和重建

MaskFusion: 多运动目标实时识别、跟踪和重建

计算机视觉life

11+阅读 · 2019年4月20日

从虚拟到现实，北大等提出基于强化学习的端到端主动目标跟踪方法

从虚拟到现实，北大等提出基于强化学习的端到端主动目标跟踪方法

机器之心

23+阅读 · 2019年4月13日

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

人工智能前沿讲习班

21+阅读 · 2018年12月21日

全景分割任务介绍及其最新进展【附PPT与视频资料】

全景分割任务介绍及其最新进展【附PPT与视频资料】

人工智能前沿讲习班

11+阅读 · 2018年12月5日

【技术分享】智能感知与计算研究中心NIPS 2017论文提出深度离散哈希算法，可用于图像检索

【技术分享】智能感知与计算研究中心NIPS 2017论文提出深度离散哈希算法，可用于图像检索

机器学习研究会

12+阅读 · 2017年11月3日

共融机器人战略规划研究和学术交流

国家自然科学基金

15+阅读 · 2016年12月31日

改进智能优化策略多机动目标跟踪方法研究

国家自然科学基金

20+阅读 · 2015年12月31日

网络化遥操作多机器人系统时滞相关控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于高精度高效率CFD方法和三通道三回路控制方案的数值虚拟飞行研究

国家自然科学基金

3+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

多视环境下基于变分水平集的场景流估计

国家自然科学基金

0+阅读 · 2015年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

17+阅读 · 2012年12月31日

网络化环境下面向态势感知的多无人机协同控制与管理方法

国家自然科学基金

24+阅读 · 2011年12月31日

非确定环境下基于分层理论的无人机多机协同控制算法研究

国家自然科学基金

12+阅读 · 2010年12月31日

MimicIK: Real-Time Generative Inverse Kinematics from Teleoperation with FK Consistency

Arxiv

0+阅读 · 6月16日

ADAPT: Analytical Disturbance-Aware Policy Training for Humanoid Locomotion

Arxiv

0+阅读 · 6月15日

Multi-Robot Motion Planning from Vision and Language using Heat-Inspired Diffusion

Arxiv

0+阅读 · 6月15日

SAPS: Shared Autonomy for Policy Steering by Blending Teleoperation with a Pretrained VLA

Arxiv

0+阅读 · 6月14日

MIRAGE: Runtime Scheduling for Multi-Vector Image Retrieval with Hierarchical Decomposition

Arxiv

0+阅读 · 6月13日

ParkourFormer: Integrating Predictive Supervision and Sequence Modeling into Parkour Locomotion

Arxiv

0+阅读 · 6月12日

Integrated Hierarchical Decision-Making in Inverse Kinematic Planning and Control

Arxiv

0+阅读 · 6月6日

X-OP: Cross-Morphology Whole-Body Teleoperation via MPC Retargeting

Arxiv

0+阅读 · 6月6日

ParkourFormer: Integrating Predictive Supervision and Sequence Modeling into Parkour Locomotion

Arxiv

0+阅读 · 5月25日

SCORP: Scene-Consistent Multi-agent Diffusion Planning with Stable Online Reinforcement Post-Training for Cooperative Driving

Arxiv

0+阅读 · 5月11日

VIP会员

文章信息

相关主题

最新内容

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

6+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

3+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

5+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

19+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

13+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

12+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

8+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

13+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

10+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

24+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

12+阅读 · 6月17日

相关VIP内容

《人机协作中的自适应任务规划与动态角色分配》最新30页报告

《人机协作中的自适应任务规划与动态角色分配》最新30页报告

专知会员服务

27+阅读 · 2025年11月21日

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

专知会员服务

27+阅读 · 2025年11月17日

《基于分层多智能体强化学习的逼真空战协同策略》

《基于分层多智能体强化学习的逼真空战协同策略》

专知会员服务

47+阅读 · 2025年10月30日

《基于人工智能的动态任务分配策略在多智能体系统中的有效控制》

《基于人工智能的动态任务分配策略在多智能体系统中的有效控制》

专知会员服务

55+阅读 · 2025年6月10日

中文版 | 集中式与分布式多智能体AI协调策略

中文版 | 集中式与分布式多智能体AI协调策略

专知会员服务

22+阅读 · 2025年5月8日

【斯坦福博士论文】时序平滑性假设下的深度神经网络自适应与正则化方法

【斯坦福博士论文】时序平滑性假设下的深度神经网络自适应与正则化方法

专知会员服务

15+阅读 · 2025年3月25日

多智能体协同决策研究全景透视：应用场景、研究方法、挑战与未来展望

多智能体协同决策研究全景透视：应用场景、研究方法、挑战与未来展望

专知会员服务

47+阅读 · 2025年3月20日

《模拟军事单元的多目标优化策略》美陆军DEVCOM SC

《模拟军事单元的多目标优化策略》美陆军DEVCOM SC

专知会员服务

47+阅读 · 2023年11月13日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

多模态预训练模型简述

多模态预训练模型简述

专知会员服务

115+阅读 · 2021年4月27日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

美国从乌克兰无人机战争中学习经验

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

相关资讯

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

33+阅读 · 2022年10月17日

浅谈主动学习（Active Learning）

浅谈主动学习（Active Learning）

凡人机器学习

32+阅读 · 2020年6月18日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知

14+阅读 · 2019年10月9日

【泡泡图灵智库】竞争协作：深度，相机运动，光流和运动分割的联合无监督学习（CVPR）

【泡泡图灵智库】竞争协作：深度，相机运动，光流和运动分割的联合无监督学习（CVPR）

泡泡机器人SLAM

11+阅读 · 2019年6月23日

MaskFusion: 多运动目标实时识别、跟踪和重建

MaskFusion: 多运动目标实时识别、跟踪和重建

计算机视觉life

11+阅读 · 2019年4月20日

从虚拟到现实，北大等提出基于强化学习的端到端主动目标跟踪方法

从虚拟到现实，北大等提出基于强化学习的端到端主动目标跟踪方法

机器之心

23+阅读 · 2019年4月13日

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

人工智能前沿讲习班

21+阅读 · 2018年12月21日

全景分割任务介绍及其最新进展【附PPT与视频资料】

全景分割任务介绍及其最新进展【附PPT与视频资料】

人工智能前沿讲习班

11+阅读 · 2018年12月5日

【技术分享】智能感知与计算研究中心NIPS 2017论文提出深度离散哈希算法，可用于图像检索

【技术分享】智能感知与计算研究中心NIPS 2017论文提出深度离散哈希算法，可用于图像检索

机器学习研究会

12+阅读 · 2017年11月3日

相关论文

MimicIK: Real-Time Generative Inverse Kinematics from Teleoperation with FK Consistency

Arxiv

0+阅读 · 6月16日

ADAPT: Analytical Disturbance-Aware Policy Training for Humanoid Locomotion

Arxiv

0+阅读 · 6月15日

Multi-Robot Motion Planning from Vision and Language using Heat-Inspired Diffusion

Arxiv

0+阅读 · 6月15日

SAPS: Shared Autonomy for Policy Steering by Blending Teleoperation with a Pretrained VLA

Arxiv

0+阅读 · 6月14日

MIRAGE: Runtime Scheduling for Multi-Vector Image Retrieval with Hierarchical Decomposition

Arxiv

0+阅读 · 6月13日

ParkourFormer: Integrating Predictive Supervision and Sequence Modeling into Parkour Locomotion

Arxiv

0+阅读 · 6月12日

Integrated Hierarchical Decision-Making in Inverse Kinematic Planning and Control

Arxiv

0+阅读 · 6月6日

X-OP: Cross-Morphology Whole-Body Teleoperation via MPC Retargeting

Arxiv

0+阅读 · 6月6日

ParkourFormer: Integrating Predictive Supervision and Sequence Modeling into Parkour Locomotion

Arxiv

0+阅读 · 5月25日

SCORP: Scene-Consistent Multi-agent Diffusion Planning with Stable Online Reinforcement Post-Training for Cooperative Driving

Arxiv

0+阅读 · 5月11日

相关基金

共融机器人战略规划研究和学术交流

国家自然科学基金

15+阅读 · 2016年12月31日

改进智能优化策略多机动目标跟踪方法研究

国家自然科学基金

20+阅读 · 2015年12月31日

网络化遥操作多机器人系统时滞相关控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于高精度高效率CFD方法和三通道三回路控制方案的数值虚拟飞行研究

国家自然科学基金

3+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

多视环境下基于变分水平集的场景流估计

国家自然科学基金

0+阅读 · 2015年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

17+阅读 · 2012年12月31日

网络化环境下面向态势感知的多无人机协同控制与管理方法

国家自然科学基金

24+阅读 · 2011年12月31日

非确定环境下基于分层理论的无人机多机协同控制算法研究

国家自然科学基金

12+阅读 · 2010年12月31日

微信扫码咨询专知VIP会员