Safe and Near-Optimal Control with Online Dynamics Learning - 专知论文

会员服务 ·

0

最优 · 在线 · 学习控制 · 最优性 · 安全策略 ·

Safe and Near-Optimal Control with Online Dynamics Learning

翻译：安全且接近最优的在线动力学学习控制

Manish Prajapat,Johannes Köhler,Melanie N. Zeilinger,Andreas Krause

Achieving both optimality and safety under unknown system dynamics is a central challenge in real-world deployment of agents. To address this, we introduce a notion of maximum safe dynamics learning, where sufficient exploration is performed within the space of safe policies. Our method executes $\textit{pessimistically}$ safe policies while $\textit{optimistically}$ exploring informative states and, despite not reaching them due to model uncertainty, ensures continuous online learning of dynamics. The framework achieves first-of-its-kind results: learning the dynamics model sufficiently $-$ up to an arbitrary small tolerance (subject to noise) $-$ in a finite time, while ensuring provably safe operation throughout with high probability and without requiring resets. Building on this, we propose an algorithm to maximize rewards while learning the dynamics $\textit{only to the extent needed}$ to achieve close-to-optimal performance. Unlike typical reinforcement learning (RL) methods, our approach operates online in a non-episodic setting and ensures safety throughout the learning process. We demonstrate the effectiveness of our approach in challenging domains such as autonomous car racing and drone navigation under aerodynamic effects $-$ scenarios where safety is critical and accurate modeling is difficult.

翻译：在未知系统动力学下同时实现最优性与安全性是智能体实际部署中的核心挑战。为此，我们提出了一种最大安全动力学学习的概念，即在安全策略空间内进行充分的探索。我们的方法执行**悲观**安全策略，同时**乐观**探索信息丰富的状态，尽管由于模型不确定性无法到达这些状态，但确保了动力学的持续在线学习。该框架实现了首创性成果：在有限时间内充分学习动力学模型——达到任意小的容忍度（受噪声影响）——同时以高概率保证整个过程中的可证明安全运行，且无需重置。在此基础上，我们提出一种算法，在仅学习**达到接近最优性能所需程度**的动力学的同时最大化奖励。与典型的强化学习方法不同，我们的方法在非分幕式设置中在线运行，并确保整个学习过程的安全性。我们在自动驾驶赛车和空气动力学效应下的无人机导航等具有挑战性的领域验证了方法的有效性——这些场景中安全性至关重要且精确建模困难。

0

相关内容

【普林斯顿博士论文】基于异常检测和泛化理论的可证安全机器人学习控制，278页pdf

【普林斯顿博士论文】基于异常检测和泛化理论的可证安全机器人学习控制，278页pdf

专知会员服务

29+阅读 · 2023年4月23日

【普林斯顿博士论文】动力系统的安全强化学习与约束学习，245页pdf

【普林斯顿博士论文】动力系统的安全强化学习与约束学习，245页pdf

专知会员服务

42+阅读 · 2023年2月2日

【伯克利博士论文】机器学习安全性，172页pdf

【伯克利博士论文】机器学习安全性，172页pdf

专知会员服务

39+阅读 · 2022年12月6日

【NeurIPS2022】可解释机器学习的安全性:一种最大偏差方法

【NeurIPS2022】可解释机器学习的安全性:一种最大偏差方法

专知会员服务

24+阅读 · 2022年11月8日

不可错过！康奈尔大学最新《机器人学习与决策》课程，讲述最新技术，附视频与Slides

不可错过！康奈尔大学最新《机器人学习与决策》课程，讲述最新技术，附视频与Slides

专知会员服务

30+阅读 · 2022年8月29日

《用于控制、探索和安全的样本高效深度强化学习》里尔大学207页博士论文

《用于控制、探索和安全的样本高效深度强化学习》里尔大学207页博士论文

专知会员服务

38+阅读 · 2022年7月21日

【伯克利博士论文】深度强化学习的探索与安全性，178页pdf

专知会员服务

81+阅读 · 2021年5月23日

MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制》2021ASU课程，(附书稿PDF&讲义)

MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制》2021ASU课程，(附书稿PDF&讲义)

专知会员服务

93+阅读 · 2021年1月17日

【2020新书】基于人工智能的机器人安全学习和控制，138页pdf

【2020新书】基于人工智能的机器人安全学习和控制，138页pdf

专知会员服务

53+阅读 · 2020年12月12日

【强化学习研讨会|Microsoft Research】安全公平的机器学习（Safe and Fair Machine Learning）

【强化学习研讨会|Microsoft Research】安全公平的机器学习（Safe and Fair Machine Learning）

专知会员服务

16+阅读 · 2019年10月3日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

27+阅读 · 2022年11月24日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

【干货书】《机器学习动力系统与控制》，572页pdf

【干货书】《机器学习动力系统与控制》，572页pdf

专知

36+阅读 · 2022年1月8日

强化学习的两大话题之一，仍有极大探索空间

强化学习的两大话题之一，仍有极大探索空间

AI科技评论

22+阅读 · 2020年8月22日

在线元学习：通过持续元学习解决传统机器学习方式的致命不足

在线元学习：通过持续元学习解决传统机器学习方式的致命不足

新智元

12+阅读 · 2019年3月3日

MIT科学家Dimitri P. Bertsekas最新2019出版《强化学习与最优控制》(附书稿PDF&讲义)

MIT科学家Dimitri P. Bertsekas最新2019出版《强化学习与最优控制》(附书稿PDF&讲义)

专知

22+阅读 · 2018年12月17日

网络安全态势感知浅析

网络安全态势感知浅析

计算机与网络安全

18+阅读 · 2017年10月13日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

多层动态网络的建模、群体动力学分析与控制

国家自然科学基金

3+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

面向主动安全控制的工程车辆动态信息获取与状态辨识

国家自然科学基金

0+阅读 · 2015年12月31日

网络化控制系统安全理论与关键技术

国家自然科学基金

1+阅读 · 2014年12月31日

基于形态改变的多体空间系统动力学建模、运动规划与最优控制

国家自然科学基金

0+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

11+阅读 · 2013年12月31日

SaferPath: Hierarchical Visual Navigation with Learned Guidance and Safety-Constrained Control

Arxiv

0+阅读 · 3月2日

Compositionally Safe Construction of Autonomous Driving Systems

Arxiv

0+阅读 · 2月23日

Online Learning with Improving Agents: Multiclass, Budgeted Agents and Bandit Learners

Arxiv

0+阅读 · 2月19日

Safe But Not Sorry: Reducing Over-Conservatism in Safety Critics via Uncertainty-Aware Modulation

Arxiv

0+阅读 · 2月18日

SIT-LMPC: Safe Information-Theoretic Learning Model Predictive Control for Iterative Tasks

Arxiv

0+阅读 · 2月18日

Online Fine-Tuning of Pretrained Controllers for Autonomous Driving via Real-Time Recurrent RL

Arxiv

0+阅读 · 2月17日

Safe Reinforcement Learning via Recovery-based Shielding with Gaussian Process Dynamics Models

Arxiv

0+阅读 · 2月17日

Provably Optimal Reinforcement Learning under Safety Filtering

Arxiv

0+阅读 · 2月11日

Rationality Measurement and Theory for Reinforcement Learning Agents

Arxiv

0+阅读 · 2月4日

Safe and Stable Neural Network Dynamical Systems for Robot Motion Planning

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

最新内容

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

3+阅读 · 27分钟前

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

0+阅读 · 36分钟前

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

2+阅读 · 42分钟前

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

2+阅读 · 53分钟前

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

9+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

7+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

9+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

6+阅读 · 7月18日

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

9+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

9+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

5+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

3+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

7+阅读 · 7月17日

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

5+阅读 · 7月17日

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

6+阅读 · 7月17日

相关VIP内容

【普林斯顿博士论文】基于异常检测和泛化理论的可证安全机器人学习控制，278页pdf

【普林斯顿博士论文】基于异常检测和泛化理论的可证安全机器人学习控制，278页pdf

专知会员服务

29+阅读 · 2023年4月23日

【普林斯顿博士论文】动力系统的安全强化学习与约束学习，245页pdf

【普林斯顿博士论文】动力系统的安全强化学习与约束学习，245页pdf

专知会员服务

42+阅读 · 2023年2月2日

【伯克利博士论文】机器学习安全性，172页pdf

【伯克利博士论文】机器学习安全性，172页pdf

专知会员服务

39+阅读 · 2022年12月6日

【NeurIPS2022】可解释机器学习的安全性:一种最大偏差方法

【NeurIPS2022】可解释机器学习的安全性:一种最大偏差方法

专知会员服务

24+阅读 · 2022年11月8日

不可错过！康奈尔大学最新《机器人学习与决策》课程，讲述最新技术，附视频与Slides

不可错过！康奈尔大学最新《机器人学习与决策》课程，讲述最新技术，附视频与Slides

专知会员服务

30+阅读 · 2022年8月29日

《用于控制、探索和安全的样本高效深度强化学习》里尔大学207页博士论文

《用于控制、探索和安全的样本高效深度强化学习》里尔大学207页博士论文

专知会员服务

38+阅读 · 2022年7月21日

【伯克利博士论文】深度强化学习的探索与安全性，178页pdf

专知会员服务

81+阅读 · 2021年5月23日

MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制》2021ASU课程，(附书稿PDF&讲义)

MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制》2021ASU课程，(附书稿PDF&讲义)

专知会员服务

93+阅读 · 2021年1月17日

【2020新书】基于人工智能的机器人安全学习和控制，138页pdf

【2020新书】基于人工智能的机器人安全学习和控制，138页pdf

专知会员服务

53+阅读 · 2020年12月12日

【强化学习研讨会|Microsoft Research】安全公平的机器学习（Safe and Fair Machine Learning）

【强化学习研讨会|Microsoft Research】安全公平的机器学习（Safe and Fair Machine Learning）

专知会员服务

16+阅读 · 2019年10月3日

热门VIP内容

开通专知VIP会员享更多权益服务

锻造未来士兵：外骨骼、基因工程与赛博格

《无人机蜂群通信技术研究》50页

深入Project Maven：为何人工智能在战场上依然失灵

《无人机系统（UAS）通信网状网络试验性部署》50页报告

相关资讯

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

27+阅读 · 2022年11月24日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

【干货书】《机器学习动力系统与控制》，572页pdf

【干货书】《机器学习动力系统与控制》，572页pdf

专知

36+阅读 · 2022年1月8日

强化学习的两大话题之一，仍有极大探索空间

强化学习的两大话题之一，仍有极大探索空间

AI科技评论

22+阅读 · 2020年8月22日

在线元学习：通过持续元学习解决传统机器学习方式的致命不足

在线元学习：通过持续元学习解决传统机器学习方式的致命不足

新智元

12+阅读 · 2019年3月3日

MIT科学家Dimitri P. Bertsekas最新2019出版《强化学习与最优控制》(附书稿PDF&讲义)

MIT科学家Dimitri P. Bertsekas最新2019出版《强化学习与最优控制》(附书稿PDF&讲义)

专知

22+阅读 · 2018年12月17日

网络安全态势感知浅析

网络安全态势感知浅析

计算机与网络安全

18+阅读 · 2017年10月13日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

SaferPath: Hierarchical Visual Navigation with Learned Guidance and Safety-Constrained Control

Arxiv

0+阅读 · 3月2日

Compositionally Safe Construction of Autonomous Driving Systems

Arxiv

0+阅读 · 2月23日

Online Learning with Improving Agents: Multiclass, Budgeted Agents and Bandit Learners

Arxiv

0+阅读 · 2月19日

Safe But Not Sorry: Reducing Over-Conservatism in Safety Critics via Uncertainty-Aware Modulation

Arxiv

0+阅读 · 2月18日

SIT-LMPC: Safe Information-Theoretic Learning Model Predictive Control for Iterative Tasks

Arxiv

0+阅读 · 2月18日

Online Fine-Tuning of Pretrained Controllers for Autonomous Driving via Real-Time Recurrent RL

Arxiv

0+阅读 · 2月17日

Safe Reinforcement Learning via Recovery-based Shielding with Gaussian Process Dynamics Models

Arxiv

0+阅读 · 2月17日

Provably Optimal Reinforcement Learning under Safety Filtering

Arxiv

0+阅读 · 2月11日

Rationality Measurement and Theory for Reinforcement Learning Agents

Arxiv

0+阅读 · 2月4日

Safe and Stable Neural Network Dynamical Systems for Robot Motion Planning

Arxiv

0+阅读 · 2月2日

相关基金

多层动态网络的建模、群体动力学分析与控制

国家自然科学基金

3+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

面向主动安全控制的工程车辆动态信息获取与状态辨识

国家自然科学基金

0+阅读 · 2015年12月31日

网络化控制系统安全理论与关键技术

国家自然科学基金

1+阅读 · 2014年12月31日

基于形态改变的多体空间系统动力学建模、运动规划与最优控制

国家自然科学基金

0+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

11+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员