Model-Based Diffusion Sampling for Predictive Control in Offline Decision Making - 专知论文

会员服务 ·

0

可行 · 约束 · 扩散采样 · 预测控制 · 扩散模型 ·

Model-Based Diffusion Sampling for Predictive Control in Offline Decision Making

翻译：基于模型的扩散采样用于离线决策中的预测控制

Haldun Balim,Na Li,Yilun Du

Offline decision-making via diffusion models often produces trajectories that are misaligned with system dynamics, limiting their reliability for control. We propose Model Predictive Diffuser (MPDiffuser), a compositional diffusion framework that combines a diffusion planner with a dynamics diffusion model to generate task-aligned and dynamically plausible trajectories. MPDiffuser interleaves planner and dynamics updates during sampling, progressively correcting feasibility while preserving task intent. A lightweight ranking module then selects trajectories that best satisfy task objectives. The compositional design improves sample efficiency and adaptability by enabling the dynamics model to leverage diverse and previously unseen data independently of the planner. Empirically, we demonstrate consistent improvements over prior diffusion-based methods on unconstrained (D4RL) and constrained (DSRL) benchmarks, and validate practicality through deployment on a real quadrupedal robot.

翻译：离线决策中通过扩散模型生成的轨迹往往与系统动态不匹配，限制了其控制可靠性。我们提出模型预测扩散器（MPDiffuser），这是一种组合扩散框架，将扩散规划器与动力学扩散模型相结合，以生成任务对齐且动态可行的轨迹。MPDiffuser在采样过程中交织规划器与动力学更新，逐步修正可行性同时保留任务意图。随后通过轻量级排序模块选择最符合任务目标的轨迹。这种组合设计通过使动力学模型能够独立于规划器利用多样化和未见过的数据，提高了样本效率和适应性。实验结果表明，我们在无约束（D4RL）和约束（DSRL）基准测试中相比先前基于扩散的方法取得了一致改进，并通过在真实四足机器人上的部署验证了实用性。

0

相关内容

用于强化学习的扩散模型：基础、分类与发展

用于强化学习的扩散模型：基础、分类与发展

专知会员服务

24+阅读 · 2025年10月15日

用于时间序列预测的扩散模型：综述

用于时间序列预测的扩散模型：综述

专知会员服务

30+阅读 · 2025年7月22日

用于语言生成的离散扩散模型

用于语言生成的离散扩散模型

专知会员服务

12+阅读 · 2025年7月10日

扩散模型量化综述

扩散模型量化综述

专知会员服务

18+阅读 · 2025年5月11日

生成式人工智能的扩散模型概述

生成式人工智能的扩散模型概述

专知会员服务

67+阅读 · 2024年12月8日

《扩散模型及其应用》最新综述

《扩散模型及其应用》最新综述

专知会员服务

50+阅读 · 2024年8月21日

【ECCV2024】优化扩散模型以进行联合轨迹预测和可控生成

【ECCV2024】优化扩散模型以进行联合轨迹预测和可控生成

专知会员服务

15+阅读 · 2024年8月2日

扩散模型概述：应用、引导生成、统计率和优化

扩散模型概述：应用、引导生成、统计率和优化

专知会员服务

47+阅读 · 2024年4月14日

扩散模型和强化学习如何结合？上交最新《强化学习中的扩散模型》综述

扩散模型和强化学习如何结合？上交最新《强化学习中的扩散模型》综述

专知会员服务

84+阅读 · 2023年11月3日

详解扩散模型：从DDPM到稳定扩散，附Slides与视频

详解扩散模型：从DDPM到稳定扩散，附Slides与视频

专知会员服务

87+阅读 · 2022年10月9日

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

极市平台

11+阅读 · 2021年11月18日

WWW2020|基于知识图谱的负采样模型在推荐系统中的应用(已开源)

WWW2020|基于知识图谱的负采样模型在推荐系统中的应用(已开源)

THU数据派

10+阅读 · 2020年4月3日

【综述】深度学习在视频多目标跟踪上的应用

【综述】深度学习在视频多目标跟踪上的应用

专知

14+阅读 · 2019年8月8日

【预测性维护】预测性维护是边缘计算与人工智能，在工业落地的最短路径？

【预测性维护】预测性维护是边缘计算与人工智能，在工业落地的最短路径？

产业智能官

14+阅读 · 2019年5月5日

基于模型系统的系统设计

基于模型系统的系统设计

科技导报

10+阅读 · 2019年4月25日

【论文笔记和代码梳理】RippleNet：基于知识图谱的用户偏好传播

【论文笔记和代码梳理】RippleNet：基于知识图谱的用户偏好传播

专知

42+阅读 · 2019年4月9日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

专知

25+阅读 · 2018年2月6日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

基于位置注意力机制模型和带标签数据来提升槽填充（EMNLP outstanding paper）

基于位置注意力机制模型和带标签数据来提升槽填充（EMNLP outstanding paper）

科技创新与创业

17+阅读 · 2017年11月17日

基于子模优化的远程预警传感器管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

一类离散Hindmarsh-Rose模型的分支延拓

国家自然科学基金

0+阅读 · 2015年12月31日

基于有限元方法的反应扩散种群模型斑图数值模拟研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于连续时间PWA模型的混杂系统预测控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于调度协议的离散系统网络控制：时滞系统方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于时滞的离散终端滑模控制系统研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于模型预测的AUV三维轨迹跟踪控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

扩散过程离散化形式下的若干统计问题的大偏差原理

国家自然科学基金

0+阅读 · 2014年12月31日

测量误差数据下约束线性模型的有偏估计及变量选择研究

国家自然科学基金

0+阅读 · 2014年12月31日

相依回归模型与扩散过程的统计推断及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

MMDiff: Extending Diffusion Transformers for Multi-Modal Generation

Arxiv

0+阅读 · 6月15日

Region-Adaptive Sampling for Diffusion Transformers

Arxiv

0+阅读 · 6月15日

Sample from What You See: Visuomotor Policy Learning via Diffusion Bridge with Observation-Embedded Stochastic Differential Equation

Arxiv

0+阅读 · 6月15日

Temporal Difference Learning for Diffusion Models

Arxiv

0+阅读 · 6月13日

Towards More General Control of Diffusion Models Using Jeffrey Guidance

Arxiv

0+阅读 · 6月11日

Individual Control Barrier Functions-Guided Diffusion Model for Safe Offline Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 6月10日

Diffusion-based Cumulative Adversarial Purification for Vision Language Models

Arxiv

0+阅读 · 6月10日

Active Sampling for Ultra-Low-Bit-Rate Video Compression via Conditional Controlled Diffusion

Arxiv

0+阅读 · 6月9日

Towards Controllable Image Generation through Representation-Conditioned Diffusion Models

Arxiv

0+阅读 · 5月26日

Diffusion Models for Reinforcement Learning: A Survey

Arxiv

22+阅读 · 2023年11月2日

VIP会员

文章信息

相关主题

最新内容

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 今天4:35

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 今天4:24

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 今天4:18

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 今天4:15

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 今天4:08

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

7+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

“史诗怒火”行动：现代多域作战的重要节点

“史诗怒火”行动：现代多域作战的重要节点

专知会员服务

8+阅读 · 7月30日

《下一代无线网络中的多无人机通信资源管理》

《下一代无线网络中的多无人机通信资源管理》

专知会员服务

8+阅读 · 7月30日

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

专知会员服务

9+阅读 · 7月30日

《人机协同在安全关键型操作决策中的应用》120页

《人机协同在安全关键型操作决策中的应用》120页

专知会员服务

8+阅读 · 7月30日

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

专知会员服务

6+阅读 · 7月30日

相关VIP内容

用于强化学习的扩散模型：基础、分类与发展

用于强化学习的扩散模型：基础、分类与发展

专知会员服务

24+阅读 · 2025年10月15日

用于时间序列预测的扩散模型：综述

用于时间序列预测的扩散模型：综述

专知会员服务

30+阅读 · 2025年7月22日

用于语言生成的离散扩散模型

用于语言生成的离散扩散模型

专知会员服务

12+阅读 · 2025年7月10日

扩散模型量化综述

扩散模型量化综述

专知会员服务

18+阅读 · 2025年5月11日

生成式人工智能的扩散模型概述

生成式人工智能的扩散模型概述

专知会员服务

67+阅读 · 2024年12月8日

《扩散模型及其应用》最新综述

《扩散模型及其应用》最新综述

专知会员服务

50+阅读 · 2024年8月21日

【ECCV2024】优化扩散模型以进行联合轨迹预测和可控生成

【ECCV2024】优化扩散模型以进行联合轨迹预测和可控生成

专知会员服务

15+阅读 · 2024年8月2日

扩散模型概述：应用、引导生成、统计率和优化

扩散模型概述：应用、引导生成、统计率和优化

专知会员服务

47+阅读 · 2024年4月14日

扩散模型和强化学习如何结合？上交最新《强化学习中的扩散模型》综述

扩散模型和强化学习如何结合？上交最新《强化学习中的扩散模型》综述

专知会员服务

84+阅读 · 2023年11月3日

详解扩散模型：从DDPM到稳定扩散，附Slides与视频

详解扩散模型：从DDPM到稳定扩散，附Slides与视频

专知会员服务

87+阅读 · 2022年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

隐身技术前沿综述：物理机理、工程实践与战略展望

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

相关资讯

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

极市平台

11+阅读 · 2021年11月18日

WWW2020|基于知识图谱的负采样模型在推荐系统中的应用(已开源)

WWW2020|基于知识图谱的负采样模型在推荐系统中的应用(已开源)

THU数据派

10+阅读 · 2020年4月3日

【综述】深度学习在视频多目标跟踪上的应用

【综述】深度学习在视频多目标跟踪上的应用

专知

14+阅读 · 2019年8月8日

【预测性维护】预测性维护是边缘计算与人工智能，在工业落地的最短路径？

【预测性维护】预测性维护是边缘计算与人工智能，在工业落地的最短路径？

产业智能官

14+阅读 · 2019年5月5日

基于模型系统的系统设计

基于模型系统的系统设计

科技导报

10+阅读 · 2019年4月25日

【论文笔记和代码梳理】RippleNet：基于知识图谱的用户偏好传播

【论文笔记和代码梳理】RippleNet：基于知识图谱的用户偏好传播

专知

42+阅读 · 2019年4月9日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

专知

25+阅读 · 2018年2月6日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

基于位置注意力机制模型和带标签数据来提升槽填充（EMNLP outstanding paper）

基于位置注意力机制模型和带标签数据来提升槽填充（EMNLP outstanding paper）

科技创新与创业

17+阅读 · 2017年11月17日

相关论文

MMDiff: Extending Diffusion Transformers for Multi-Modal Generation

Arxiv

0+阅读 · 6月15日

Region-Adaptive Sampling for Diffusion Transformers

Arxiv

0+阅读 · 6月15日

Sample from What You See: Visuomotor Policy Learning via Diffusion Bridge with Observation-Embedded Stochastic Differential Equation

Arxiv

0+阅读 · 6月15日

Temporal Difference Learning for Diffusion Models

Arxiv

0+阅读 · 6月13日

Towards More General Control of Diffusion Models Using Jeffrey Guidance

Arxiv

0+阅读 · 6月11日

Individual Control Barrier Functions-Guided Diffusion Model for Safe Offline Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 6月10日

Diffusion-based Cumulative Adversarial Purification for Vision Language Models

Arxiv

0+阅读 · 6月10日

Active Sampling for Ultra-Low-Bit-Rate Video Compression via Conditional Controlled Diffusion

Arxiv

0+阅读 · 6月9日

Towards Controllable Image Generation through Representation-Conditioned Diffusion Models

Arxiv

0+阅读 · 5月26日

Diffusion Models for Reinforcement Learning: A Survey

Arxiv

22+阅读 · 2023年11月2日

相关基金

基于子模优化的远程预警传感器管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

一类离散Hindmarsh-Rose模型的分支延拓

国家自然科学基金

0+阅读 · 2015年12月31日

基于有限元方法的反应扩散种群模型斑图数值模拟研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于连续时间PWA模型的混杂系统预测控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于调度协议的离散系统网络控制：时滞系统方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于时滞的离散终端滑模控制系统研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于模型预测的AUV三维轨迹跟踪控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

扩散过程离散化形式下的若干统计问题的大偏差原理

国家自然科学基金

0+阅读 · 2014年12月31日

测量误差数据下约束线性模型的有偏估计及变量选择研究

国家自然科学基金

0+阅读 · 2014年12月31日

相依回归模型与扩散过程的统计推断及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员