SIT-LMPC：面向迭代任务的安全信息论学习模型预测控制 (SIT-LMPC: Safe Information-Theoretic Learning Model Predictive Control for Iterative Tasks) - 专知论文

会员服务 ·

0

模型预测 · 模型预测控制 · 预测控制 · 安全信息 · 学习模型 ·

SIT-LMPC: Safe Information-Theoretic Learning Model Predictive Control for Iterative Tasks

翻译：SIT-LMPC：面向迭代任务的安全信息论学习模型预测控制

Zirui Zang,Ahmad Amine,Nick-Marios T. Kokolakis,Truong X. Nghiem,Ugo Rosolia,Rahul Mangharam

from arxiv, 8 pages, 5 figures. Published in IEEE RA-L, vol. 11, no. 1, Jan. 2026. Presented at ICRA 2026

Robots executing iterative tasks in complex, uncertain environments require control strategies that balance robustness, safety, and high performance. This paper introduces a safe information-theoretic learning model predictive control (SIT-LMPC) algorithm for iterative tasks. Specifically, we design an iterative control framework based on an information-theoretic model predictive control algorithm to address a constrained infinite-horizon optimal control problem for discrete-time nonlinear stochastic systems. An adaptive penalty method is developed to ensure safety while balancing optimality. Trajectories from previous iterations are utilized to learn a value function using normalizing flows, which enables richer uncertainty modeling compared to Gaussian priors. SIT-LMPC is designed for highly parallel execution on graphics processing units, allowing efficient real-time optimization. Benchmark simulations and hardware experiments demonstrate that SIT-LMPC iteratively improves system performance while robustly satisfying system constraints.

翻译：机器人在复杂、不确定环境中执行迭代任务时，需要一种能够兼顾鲁棒性、安全性与高性能的控制策略。本文针对迭代任务提出了一种安全信息论学习模型预测控制算法。具体而言，我们基于信息论模型预测控制算法设计了一个迭代控制框架，以解决离散时间非线性随机系统的约束无限时域最优控制问题。我们开发了一种自适应惩罚方法，在保证安全性的同时平衡最优性。该算法利用先前迭代产生的轨迹，通过归一化流学习价值函数，相较于高斯先验，该方法能够实现更丰富的不确定性建模。SIT-LMPC 专为在图形处理器上高度并行执行而设计，可实现高效的实时优化。基准仿真与硬件实验表明，SIT-LMPC 能够在鲁棒满足系统约束的同时，迭代地提升系统性能。

0

相关内容

模型预测

【普林斯顿博士论文】面向人本机器人学的安全与学习博弈论融合

【普林斯顿博士论文】面向人本机器人学的安全与学习博弈论融合

专知会员服务

14+阅读 · 2025年10月25日

【博士论文】基于不确定性的可靠性：现代机器学习中的选择性预测与可信部署

【博士论文】基于不确定性的可靠性：现代机器学习中的选择性预测与可信部署

专知会员服务

24+阅读 · 2025年8月14日

【MIT博士论文】从数据到模型，再回到数据：构建可预测且可靠的机器学习系统”

【MIT博士论文】从数据到模型，再回到数据：构建可预测且可靠的机器学习系统”

专知会员服务

21+阅读 · 2025年6月19日

【斯坦福博士论文】高精度操控的策略学习前沿研究

【斯坦福博士论文】高精度操控的策略学习前沿研究

专知会员服务

22+阅读 · 2025年3月30日

【普林斯顿博士论文】基于异常检测和泛化理论的可证安全机器人学习控制，278页pdf

【普林斯顿博士论文】基于异常检测和泛化理论的可证安全机器人学习控制，278页pdf

专知会员服务

29+阅读 · 2023年4月23日

《网络防御中深度学习方法的鲁棒性和脆弱性测量》72页论文

《网络防御中深度学习方法的鲁棒性和脆弱性测量》72页论文

专知会员服务

41+阅读 · 2023年4月20日

面向机器学习模型安全的测试与修复

面向机器学习模型安全的测试与修复

专知会员服务

54+阅读 · 2023年2月5日

【普林斯顿博士论文】动力系统的安全强化学习与约束学习，245页pdf

【普林斯顿博士论文】动力系统的安全强化学习与约束学习，245页pdf

专知会员服务

41+阅读 · 2023年2月2日

针对深度学习模型的对抗性攻击与防御

专知会员服务

48+阅读 · 2021年5月17日

【2020新书】基于人工智能的机器人安全学习和控制，138页pdf

【2020新书】基于人工智能的机器人安全学习和控制，138页pdf

专知会员服务

52+阅读 · 2020年12月12日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

47+阅读 · 2022年11月16日

清华大学《高级机器学习》课程

清华大学《高级机器学习》课程

专知

40+阅读 · 2020年7月21日

金融时序预测中的深度学习方法综述: 从2005到2019，附63页pdf下载

金融时序预测中的深度学习方法综述: 从2005到2019，附63页pdf下载

专知

70+阅读 · 2019年12月4日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

ICLR 2019论文解读：深度学习应用于复杂系统控制

ICLR 2019论文解读：深度学习应用于复杂系统控制

机器之心

11+阅读 · 2019年1月10日

【强化学习】强化学习与控制理论的区别与联系；深度强化学习的课程笔记。

【强化学习】强化学习与控制理论的区别与联系；深度强化学习的课程笔记。

产业智能官

49+阅读 · 2018年7月4日

半监督多任务学习：Semisupervised Multitask Learning

半监督多任务学习：Semisupervised Multitask Learning

我爱读PAMI

18+阅读 · 2018年4月29日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

基于信息理论的机器学习

基于信息理论的机器学习

专知

22+阅读 · 2017年11月23日

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于连续时间PWA模型的混杂系统预测控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于虚拟传感与故障机理的油气设备安全预测理论及模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于迭代学习的城市轨道交通列车自动运行控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

非线性不确定系统的齐次控制理论及应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

Graph Neural Model Predictive Control for High-Dimensional Systems

Graph Neural Model Predictive Control for High-Dimensional Systems

Arxiv

0+阅读 · 2月19日

SafeFlowMPC: Predictive and Safe Trajectory Planning for Robot Manipulators with Learning-based Policies

Arxiv

0+阅读 · 2月17日

ForesightSafety Bench: A Frontier Risk Evaluation and Governance Framework towards Safe AI

Arxiv

0+阅读 · 2月15日

SafeFlowMPC: Predictive and Safe Trajectory Planning for Robot Manipulators with Learning-based Policies

Arxiv

0+阅读 · 2月13日

Safety Beyond the Training Data: Robust Out-of-Distribution MPC via Conformalized System Level Synthesis

Arxiv

0+阅读 · 2月12日

RFS: Reinforcement Learning with Residual Flow Steering for Dexterous Manipulation

Arxiv

0+阅读 · 2月5日

RFS: Reinforcement learning with Residual flow steering for dexterous manipulation

Arxiv

0+阅读 · 2月3日

Safely Learning Controlled Stochastic Dynamics

Arxiv

0+阅读 · 2月2日

RFS: Reinforcement learning with Residual flow steering for dexterous manipulation

Arxiv

0+阅读 · 2月2日

Learning Legged MPC with Smooth Neural Surrogates

Arxiv

0+阅读 · 1月17日

VIP会员

文章信息

相关主题

模型预测控制

相关VIP内容

【普林斯顿博士论文】面向人本机器人学的安全与学习博弈论融合

【普林斯顿博士论文】面向人本机器人学的安全与学习博弈论融合

专知会员服务

14+阅读 · 2025年10月25日

【博士论文】基于不确定性的可靠性：现代机器学习中的选择性预测与可信部署

【博士论文】基于不确定性的可靠性：现代机器学习中的选择性预测与可信部署

专知会员服务

24+阅读 · 2025年8月14日

【MIT博士论文】从数据到模型，再回到数据：构建可预测且可靠的机器学习系统”

【MIT博士论文】从数据到模型，再回到数据：构建可预测且可靠的机器学习系统”

专知会员服务

21+阅读 · 2025年6月19日

【斯坦福博士论文】高精度操控的策略学习前沿研究

【斯坦福博士论文】高精度操控的策略学习前沿研究

专知会员服务

22+阅读 · 2025年3月30日

【普林斯顿博士论文】基于异常检测和泛化理论的可证安全机器人学习控制，278页pdf

【普林斯顿博士论文】基于异常检测和泛化理论的可证安全机器人学习控制，278页pdf

专知会员服务

29+阅读 · 2023年4月23日

《网络防御中深度学习方法的鲁棒性和脆弱性测量》72页论文

《网络防御中深度学习方法的鲁棒性和脆弱性测量》72页论文

专知会员服务

41+阅读 · 2023年4月20日

面向机器学习模型安全的测试与修复

面向机器学习模型安全的测试与修复

专知会员服务

54+阅读 · 2023年2月5日

【普林斯顿博士论文】动力系统的安全强化学习与约束学习，245页pdf

【普林斯顿博士论文】动力系统的安全强化学习与约束学习，245页pdf

专知会员服务

41+阅读 · 2023年2月2日

针对深度学习模型的对抗性攻击与防御

专知会员服务

48+阅读 · 2021年5月17日

【2020新书】基于人工智能的机器人安全学习和控制，138页pdf

【2020新书】基于人工智能的机器人安全学习和控制，138页pdf

专知会员服务

52+阅读 · 2020年12月12日

热门VIP内容

开通专知VIP会员享更多权益服务

《可信人工智能赋能系统的支柱》

《从经典神经网络到不确定性下的拓扑神经网络：军事应用》2026最新40页报告

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

《人工智能：对战略与力量的影响》slides

相关资讯

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

47+阅读 · 2022年11月16日

清华大学《高级机器学习》课程

清华大学《高级机器学习》课程

专知

40+阅读 · 2020年7月21日

金融时序预测中的深度学习方法综述: 从2005到2019，附63页pdf下载

金融时序预测中的深度学习方法综述: 从2005到2019，附63页pdf下载

专知

70+阅读 · 2019年12月4日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

ICLR 2019论文解读：深度学习应用于复杂系统控制

ICLR 2019论文解读：深度学习应用于复杂系统控制

机器之心

11+阅读 · 2019年1月10日

【强化学习】强化学习与控制理论的区别与联系；深度强化学习的课程笔记。

【强化学习】强化学习与控制理论的区别与联系；深度强化学习的课程笔记。

产业智能官

49+阅读 · 2018年7月4日

半监督多任务学习：Semisupervised Multitask Learning

半监督多任务学习：Semisupervised Multitask Learning

我爱读PAMI

18+阅读 · 2018年4月29日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

基于信息理论的机器学习

基于信息理论的机器学习

专知

22+阅读 · 2017年11月23日

相关论文

Graph Neural Model Predictive Control for High-Dimensional Systems

Graph Neural Model Predictive Control for High-Dimensional Systems

Arxiv

0+阅读 · 2月19日

SafeFlowMPC: Predictive and Safe Trajectory Planning for Robot Manipulators with Learning-based Policies

Arxiv

0+阅读 · 2月17日

ForesightSafety Bench: A Frontier Risk Evaluation and Governance Framework towards Safe AI

Arxiv

0+阅读 · 2月15日

SafeFlowMPC: Predictive and Safe Trajectory Planning for Robot Manipulators with Learning-based Policies

Arxiv

0+阅读 · 2月13日

Safety Beyond the Training Data: Robust Out-of-Distribution MPC via Conformalized System Level Synthesis

Arxiv

0+阅读 · 2月12日

RFS: Reinforcement Learning with Residual Flow Steering for Dexterous Manipulation

Arxiv

0+阅读 · 2月5日

RFS: Reinforcement learning with Residual flow steering for dexterous manipulation

Arxiv

0+阅读 · 2月3日

Safely Learning Controlled Stochastic Dynamics

Arxiv

0+阅读 · 2月2日

RFS: Reinforcement learning with Residual flow steering for dexterous manipulation

Arxiv

0+阅读 · 2月2日

Learning Legged MPC with Smooth Neural Surrogates

Arxiv

0+阅读 · 1月17日

相关基金

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于连续时间PWA模型的混杂系统预测控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于虚拟传感与故障机理的油气设备安全预测理论及模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于迭代学习的城市轨道交通列车自动运行控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

非线性不确定系统的齐次控制理论及应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员