On Building Myopic MPC Policies using Supervised Learning - 专知论文

会员服务 ·

0

监督 · 监督学习 · 近似 · 最优 · 在线 ·

On Building Myopic MPC Policies using Supervised Learning

翻译：基于监督学习构建近视MPC策略

Christopher A. Orrico,Bokan Yang,Dinesh Krishnamoorthy

from arxiv, Updated version available as arXiv:2508.05804

The application of supervised learning techniques in combination with model predictive control (MPC) has recently generated significant interest, particularly in the area of approximate explicit MPC, where function approximators like deep neural networks are used to learn the MPC policy via optimal state-action pairs generated offline. While the aim of approximate explicit MPC is to closely replicate the MPC policy, substituting online optimization with a trained neural network, the performance guarantees that come with solving the online optimization problem are typically lost. This paper considers an alternative strategy, where supervised learning is used to learn the optimal value function offline instead of learning the optimal policy. This can then be used as the cost-to-go function in a myopic MPC with a very short prediction horizon, such that the online computation burden reduces significantly without affecting the controller performance. This approach differs from existing work on value function approximations in the sense that it learns the cost-to-go function by using offline-collected state-value pairs, rather than closed-loop performance data. The cost of generating the state-value pairs used for training is addressed using a sensitivity-based data augmentation scheme.

翻译：监督学习技术与模型预测控制（MPC）的结合近年来引起了广泛兴趣，特别是在近似显式MPC领域，该领域利用深度神经网络等函数逼近器，通过离线生成的最优状态-动作对来学习MPC策略。尽管近似显式MPC旨在用训练好的神经网络替代在线优化以紧密复现MPC策略，但伴随在线优化求解的性能保证通常会丧失。本文考虑另一种策略：利用监督学习离线学习最优价值函数而非最优策略。该价值函数可作为极短预测时域下近视MPC的代价函数，从而在保持控制器性能的前提下显著降低在线计算负担。与现有价值函数近似研究不同，本方法通过离线收集的状态-价值对（而非闭环性能数据）学习代价函数。针对训练所需状态-价值对的生成成本问题，本文提出基于灵敏度的数据增强方案加以解决。

0

相关内容

《视觉Transformers自监督学习机制综述》

《视觉Transformers自监督学习机制综述》

专知会员服务

29+阅读 · 2024年9月2日

【ETHZ博士论文】监督学习中的频谱偏差，149页pdf

【ETHZ博士论文】监督学习中的频谱偏差，149页pdf

专知会员服务

23+阅读 · 2024年3月16日

自监督为何有效？243页普林斯顿博士论文《理解自监督表示学习》，全面阐述对比学习、语言模型和自我预测三类方法

自监督为何有效？243页普林斯顿博士论文《理解自监督表示学习》，全面阐述对比学习、语言模型和自我预测三类方法

专知会员服务

69+阅读 · 2023年1月29日

自监督学习在CV进展？何恺明等最新ECCV2022教程《自监督表示学习在计算机视觉》，全面讲述自监督视觉学习进展

自监督学习在CV进展？何恺明等最新ECCV2022教程《自监督表示学习在计算机视觉》，全面讲述自监督视觉学习进展

专知会员服务

54+阅读 · 2022年12月10日

视觉弱监督学习研究进展

视觉弱监督学习研究进展

专知会员服务

32+阅读 · 2022年6月28日

计算机视觉中的自监督学习与注意力建模

专知会员服务

60+阅读 · 2021年4月11日

【UIUC】最新《自监督学习》教程，51页ppt，Self-supervised learning

【UIUC】最新《自监督学习》教程，51页ppt，Self-supervised learning

专知会员服务

84+阅读 · 2020年11月25日

【Facebook AI】自监督学习在计算机视觉应用最新概述，108页ppt Self-supervised learning

【Facebook AI】自监督学习在计算机视觉应用最新概述，108页ppt Self-supervised learning

专知会员服务

165+阅读 · 2020年4月19日

【CMU-Google-斯坦福】可控行为的弱监督强化学习，Weakly-Supervised RL

【CMU-Google-斯坦福】可控行为的弱监督强化学习，Weakly-Supervised RL

专知会员服务

22+阅读 · 2020年4月8日

基于深度网络的自监督视觉特征学习综述，附24页论文下载

基于深度网络的自监督视觉特征学习综述，附24页论文下载

专知会员服务

66+阅读 · 2020年1月15日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

对比自监督学习

对比自监督学习

深度学习自然语言处理

35+阅读 · 2020年7月15日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知

133+阅读 · 2020年3月18日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

关于弱监督学习，这可能是目前最详尽的一篇科普文

关于弱监督学习，这可能是目前最详尽的一篇科普文

AI科技评论

29+阅读 · 2019年5月1日

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

专知

36+阅读 · 2019年2月20日

论文浅尝 | 基于深度强化学习的远程监督数据集的降噪

论文浅尝 | 基于深度强化学习的远程监督数据集的降噪

开放知识图谱

29+阅读 · 2019年1月17日

DeepMind 牛津大学《视觉注意力机制》，提高视觉推理能力（PPT下载）

DeepMind 牛津大学《视觉注意力机制》，提高视觉推理能力（PPT下载）

专知

13+阅读 · 2018年9月25日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

大数据环境下弱监督深度学习的人脸美丽预测研究

国家自然科学基金

3+阅读 · 2017年12月31日

基于深度学习技术的视神经系统研究

国家自然科学基金

7+阅读 · 2017年12月31日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

24+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

排序与半监督学习的误差分析

国家自然科学基金

0+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

极限学习机拓展研究及其在近红外光谱分析中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

智能视频监控中图像超分辨率重建关键技术研究

国家自然科学基金

4+阅读 · 2014年12月31日

MPCS: Neuroplastic Continual Learning via Multi-Component Plasticity and Topology-Aware EWC

Arxiv

0+阅读 · 5月4日

GCImOpt: Learning efficient goal-conditioned policies by imitating optimal trajectories

Arxiv

0+阅读 · 4月24日

Learning Hybrid-Control Policies for High-Precision In-Contact Manipulation Under Uncertainty

Arxiv

0+阅读 · 4月21日

Beyond Conservative Automated Driving in Multi-Agent Scenarios via Coupled Model Predictive Control and Deep Reinforcement Learning

Arxiv

0+阅读 · 4月15日

Boosting Visual Instruction Tuning with Self-Supervised Guidance

Arxiv

0+阅读 · 4月14日

Automatic Self-supervised Learning for Social Recommendations

Arxiv

0+阅读 · 4月10日

Ego-Foresight: Self-supervised Learning of Agent-Aware Representations for Improved RL

Arxiv

0+阅读 · 4月1日

On the Asymptotics of Self-Supervised Pre-training: Two-Stage M-Estimation and Representation Symmetry

Arxiv

0+阅读 · 3月29日

Learning Progressive Adaptation for Multi-Modal Tracking

Arxiv

0+阅读 · 3月22日

Learning Hierarchical Features for Visual Object Tracking with Recursive Neural Networks

Arxiv

13+阅读 · 2018年1月6日

VIP会员

文章信息

相关主题

最新内容

无人机自主控制与人工智能：系统性综述

无人机自主控制与人工智能：系统性综述

专知会员服务

10+阅读 · 今天7:25

巡飞弹与反无人机系统——现代战场的两大支柱

巡飞弹与反无人机系统——现代战场的两大支柱

专知会员服务

3+阅读 · 今天6:54

《打造“黄金舰队”》57页报告

《打造“黄金舰队”》57页报告

专知会员服务

3+阅读 · 今天6:52

《北约数字教官网络发展路径》128页报告

《北约数字教官网络发展路径》128页报告

专知会员服务

2+阅读 · 今天6:33

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

7+阅读 · 6月25日

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

6+阅读 · 6月25日

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

9+阅读 · 6月25日

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

7+阅读 · 6月25日

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

8+阅读 · 6月25日

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

8+阅读 · 6月25日

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

10+阅读 · 6月25日

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

9+阅读 · 6月25日

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

9+阅读 · 6月25日

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

10+阅读 · 6月24日

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

10+阅读 · 6月24日

相关VIP内容

《视觉Transformers自监督学习机制综述》

《视觉Transformers自监督学习机制综述》

专知会员服务

29+阅读 · 2024年9月2日

【ETHZ博士论文】监督学习中的频谱偏差，149页pdf

【ETHZ博士论文】监督学习中的频谱偏差，149页pdf

专知会员服务

23+阅读 · 2024年3月16日

自监督为何有效？243页普林斯顿博士论文《理解自监督表示学习》，全面阐述对比学习、语言模型和自我预测三类方法

自监督为何有效？243页普林斯顿博士论文《理解自监督表示学习》，全面阐述对比学习、语言模型和自我预测三类方法

专知会员服务

69+阅读 · 2023年1月29日

自监督学习在CV进展？何恺明等最新ECCV2022教程《自监督表示学习在计算机视觉》，全面讲述自监督视觉学习进展

自监督学习在CV进展？何恺明等最新ECCV2022教程《自监督表示学习在计算机视觉》，全面讲述自监督视觉学习进展

专知会员服务

54+阅读 · 2022年12月10日

视觉弱监督学习研究进展

视觉弱监督学习研究进展

专知会员服务

32+阅读 · 2022年6月28日

计算机视觉中的自监督学习与注意力建模

专知会员服务

60+阅读 · 2021年4月11日

【UIUC】最新《自监督学习》教程，51页ppt，Self-supervised learning

【UIUC】最新《自监督学习》教程，51页ppt，Self-supervised learning

专知会员服务

84+阅读 · 2020年11月25日

【Facebook AI】自监督学习在计算机视觉应用最新概述，108页ppt Self-supervised learning

【Facebook AI】自监督学习在计算机视觉应用最新概述，108页ppt Self-supervised learning

专知会员服务

165+阅读 · 2020年4月19日

【CMU-Google-斯坦福】可控行为的弱监督强化学习，Weakly-Supervised RL

【CMU-Google-斯坦福】可控行为的弱监督强化学习，Weakly-Supervised RL

专知会员服务

22+阅读 · 2020年4月8日

基于深度网络的自监督视觉特征学习综述，附24页论文下载

基于深度网络的自监督视觉特征学习综述，附24页论文下载

专知会员服务

66+阅读 · 2020年1月15日

热门VIP内容

开通专知VIP会员享更多权益服务

巡飞弹与反无人机系统——现代战场的两大支柱

《北约数字教官网络发展路径》128页报告

无人机自主控制与人工智能：系统性综述

《打造“黄金舰队”》57页报告

相关资讯

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

对比自监督学习

对比自监督学习

深度学习自然语言处理

35+阅读 · 2020年7月15日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知

133+阅读 · 2020年3月18日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

关于弱监督学习，这可能是目前最详尽的一篇科普文

关于弱监督学习，这可能是目前最详尽的一篇科普文

AI科技评论

29+阅读 · 2019年5月1日

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

专知

36+阅读 · 2019年2月20日

论文浅尝 | 基于深度强化学习的远程监督数据集的降噪

论文浅尝 | 基于深度强化学习的远程监督数据集的降噪

开放知识图谱

29+阅读 · 2019年1月17日

DeepMind 牛津大学《视觉注意力机制》，提高视觉推理能力（PPT下载）

DeepMind 牛津大学《视觉注意力机制》，提高视觉推理能力（PPT下载）

专知

13+阅读 · 2018年9月25日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

相关论文

MPCS: Neuroplastic Continual Learning via Multi-Component Plasticity and Topology-Aware EWC

Arxiv

0+阅读 · 5月4日

GCImOpt: Learning efficient goal-conditioned policies by imitating optimal trajectories

Arxiv

0+阅读 · 4月24日

Learning Hybrid-Control Policies for High-Precision In-Contact Manipulation Under Uncertainty

Arxiv

0+阅读 · 4月21日

Beyond Conservative Automated Driving in Multi-Agent Scenarios via Coupled Model Predictive Control and Deep Reinforcement Learning

Arxiv

0+阅读 · 4月15日

Boosting Visual Instruction Tuning with Self-Supervised Guidance

Arxiv

0+阅读 · 4月14日

Automatic Self-supervised Learning for Social Recommendations

Arxiv

0+阅读 · 4月10日

Ego-Foresight: Self-supervised Learning of Agent-Aware Representations for Improved RL

Arxiv

0+阅读 · 4月1日

On the Asymptotics of Self-Supervised Pre-training: Two-Stage M-Estimation and Representation Symmetry

Arxiv

0+阅读 · 3月29日

Learning Progressive Adaptation for Multi-Modal Tracking

Arxiv

0+阅读 · 3月22日

Learning Hierarchical Features for Visual Object Tracking with Recursive Neural Networks

Arxiv

13+阅读 · 2018年1月6日

相关基金

大数据环境下弱监督深度学习的人脸美丽预测研究

国家自然科学基金

3+阅读 · 2017年12月31日

基于深度学习技术的视神经系统研究

国家自然科学基金

7+阅读 · 2017年12月31日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

24+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

排序与半监督学习的误差分析

国家自然科学基金

0+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

极限学习机拓展研究及其在近红外光谱分析中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

智能视频监控中图像超分辨率重建关键技术研究

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员