Fault-Tolerant Design and Multi-Objective Model Checking for Real-Time Deep Reinforcement Learning Systems - 专知论文

会员服务 ·

0

设计 · 系统 · 深度强化学习 · 多目标 · 目标模型 ·

Fault-Tolerant Design and Multi-Objective Model Checking for Real-Time Deep Reinforcement Learning Systems

翻译：容错设计与实时深度强化学习系统的多目标模型检测

Guoxin Su,Thomas Robinson,Hoa Khanh Dam,Li Liu,David S. Rosenblum

from arxiv, To appear in ACM Transactions on Software Engineering and Methodology (TOSEM), 2026

Deep reinforcement learning (DRL) has emerged as a powerful paradigm for solving complex decision-making problems. However, DRL-based systems still face significant dependability challenges particularly in real-time environments due to the simulation-to-reality gap, out-of-distribution observations, and the critical impact of latency. Latency-induced faults, in particular, can lead to unsafe or unstable behaviour, yet existing fault-tolerance approaches to DRL systems lack formal methods to rigorously analyse and optimise performance and safety simultaneously in real-time settings. To address this, we propose a formal framework for designing and analysing real-time switching mechanisms between DRL agents and alternative controllers. Our approach leverages Timed Automata (TAs) for explicit switch logic design, which is then syntactically converted to a Markov Decision Process (MDP) for formal analysis. We develop a novel convex query technique for multi-objective model checking, enabling the optimisation of soft performance objectives while ensuring hard safety constraints for MDPs. Furthermore, we present MOPMC, a GPU-accelerated software tool implementing this technique, demonstrating superior scalability in both model size and objective numbers.

翻译：深度强化学习已成为解决复杂决策问题的强大范式。然而，基于深度强化学习的系统仍面临严峻的可信赖性挑战，尤其是在实时环境中，这源于仿真与现实的差距、分布外观测以及延迟的关键影响。特别是延迟引发的故障可能导致不安全或不稳定的行为，但现有面向深度强化学习系统的容错方法缺乏在实时环境下同时严格分析和优化性能与安全性的形式化方法。为此，我们提出一个用于设计和分析深度强化学习代理与替代控制器之间实时切换机制的形式化框架。该方法利用时间自动机进行显式切换逻辑设计，随后通过语法转换将其转化为马尔可夫决策过程以进行形式化分析。我们开发了一种新颖的凸查询技术，用于多目标模型检测，能够在确保马尔可夫决策过程硬性安全约束的同时优化软性性能目标。此外，我们提出了MOPMC——一个实现该技术的GPU加速软件工具，在模型规模和目标数量方面均展现出卓越的可扩展性。

0

相关内容

设计是对现有状的一种重新认识和打破重组的过程，设计让一切变得更美。

【博士论文】面向可扩展且可信智能系统的强化学习

【博士论文】面向可扩展且可信智能系统的强化学习

专知会员服务

12+阅读 · 5月13日

【剑桥大学博士论文】深度记忆模型与部分可观察下的高效强化学习

【剑桥大学博士论文】深度记忆模型与部分可观察下的高效强化学习

专知会员服务

34+阅读 · 2024年12月18日

中科院自动化所最新《分布式深度强化学习DDRL》综述，14页pdf阐述DDRL与多玩家多智能体学习工具箱

中科院自动化所最新《分布式深度强化学习DDRL》综述，14页pdf阐述DDRL与多玩家多智能体学习工具箱

专知会员服务

41+阅读 · 2022年12月2日

结合进化算法的深度强化学习方法研究综述

结合进化算法的深度强化学习方法研究综述

专知会员服务

81+阅读 · 2022年7月16日

面向移动增强现实的实时深度学习目标检测方法综述

专知会员服务

22+阅读 · 2021年10月9日

多智能体深度强化学习的若干关键科学问题

多智能体深度强化学习的若干关键科学问题

专知会员服务

196+阅读 · 2020年5月24日

【论文推荐】深度学习中的异常实例检测:综述，Anomalous Instance Detection in Deep Learning: A Survey

【论文推荐】深度学习中的异常实例检测:综述，Anomalous Instance Detection in Deep Learning: A Survey

专知会员服务

97+阅读 · 2020年3月17日

【雪城大学】深度学习中的异常实例检测:综述论文，Anomalous Instance Detection

【雪城大学】深度学习中的异常实例检测:综述论文，Anomalous Instance Detection

专知会员服务

87+阅读 · 2020年3月17日

中科院信工所发布《深度学习系统的隐私与安全》综述论文，187篇文献总结

中科院信工所发布《深度学习系统的隐私与安全》综述论文，187篇文献总结

专知会员服务

103+阅读 · 2019年12月5日

【南洋理工大学课程】deep_reinforcement_learning（深度强化学习），109页ppt

【南洋理工大学课程】deep_reinforcement_learning（深度强化学习），109页ppt

专知会员服务

105+阅读 · 2019年11月2日

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

专知

11+阅读 · 2021年4月23日

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

深度强化学习实验室

20+阅读 · 2020年8月11日

深度学习模型可解释性的研究进展

深度学习模型可解释性的研究进展

专知

26+阅读 · 2020年8月1日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

基于虚拟现实环境的深度学习模型构建

基于虚拟现实环境的深度学习模型构建

MOOC

24+阅读 · 2019年9月28日

「PPT」深度学习中的不确定性估计

「PPT」深度学习中的不确定性估计

专知

27+阅读 · 2019年7月20日

基于深度学习的序列推荐系统：概念，算法与评估

基于深度学习的序列推荐系统：概念，算法与评估

专知

24+阅读 · 2019年6月6日

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

专知

137+阅读 · 2019年1月14日

深度强化学习简介

深度强化学习简介

专知

30+阅读 · 2018年12月3日

展望：模型驱动的深度学习

展望：模型驱动的深度学习

人工智能学家

12+阅读 · 2018年1月23日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于极限学习单元的多生物特征图像深度学习建模与识别研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向多源遥感图像的深度学习技术与系统研究

国家自然科学基金

17+阅读 · 2014年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

MetaErr: Towards Predicting Error Patterns in Deep Neural Networks

Arxiv

0+阅读 · 5月3日

Adaptive and AI-Augmented Security Testing: A Systematic Survey of Program Analysis, Feedback-Driven Testing, and Hybrid Learning-Based Approaches

Arxiv

0+阅读 · 4月29日

Agent-Centric Visual Reinforcement Learning under Dynamic Perturbations

Arxiv

0+阅读 · 4月27日

Multimodal Anomaly Detection for Human-Robot Interaction

Arxiv

0+阅读 · 4月10日

DBMF: A Dual-Branch Multimodal Framework for Out-of-Distribution Detection

Arxiv

0+阅读 · 4月9日

Behavior-Constrained Reinforcement Learning with Receding-Horizon Credit Assignment for High-Performance Control

Arxiv

0+阅读 · 4月3日

Self-Optimizing Multi-Agent Systems for Deep Research

Arxiv

0+阅读 · 4月3日

Ego-Foresight: Self-supervised Learning of Agent-Aware Representations for Improved RL

Arxiv

0+阅读 · 4月1日

Effort-Optimized, Accuracy-Driven Labelling and Validation of Test Inputs for DL Systems: A Mixed-Integer Linear Programming Approach

Arxiv

0+阅读 · 3月30日

Distributed Deep Reinforcement Learning: A Survey and A Multi-Player Multi-Agent Learning Toolbox

Arxiv

11+阅读 · 2022年12月1日

VIP会员

文章信息

相关主题

深度强化学习

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

3+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

4+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

5+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

4+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

4+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

4+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

21+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

【博士论文】面向可扩展且可信智能系统的强化学习

【博士论文】面向可扩展且可信智能系统的强化学习

专知会员服务

12+阅读 · 5月13日

【剑桥大学博士论文】深度记忆模型与部分可观察下的高效强化学习

【剑桥大学博士论文】深度记忆模型与部分可观察下的高效强化学习

专知会员服务

34+阅读 · 2024年12月18日

中科院自动化所最新《分布式深度强化学习DDRL》综述，14页pdf阐述DDRL与多玩家多智能体学习工具箱

中科院自动化所最新《分布式深度强化学习DDRL》综述，14页pdf阐述DDRL与多玩家多智能体学习工具箱

专知会员服务

41+阅读 · 2022年12月2日

结合进化算法的深度强化学习方法研究综述

结合进化算法的深度强化学习方法研究综述

专知会员服务

81+阅读 · 2022年7月16日

面向移动增强现实的实时深度学习目标检测方法综述

专知会员服务

22+阅读 · 2021年10月9日

多智能体深度强化学习的若干关键科学问题

多智能体深度强化学习的若干关键科学问题

专知会员服务

196+阅读 · 2020年5月24日

【论文推荐】深度学习中的异常实例检测:综述，Anomalous Instance Detection in Deep Learning: A Survey

【论文推荐】深度学习中的异常实例检测:综述，Anomalous Instance Detection in Deep Learning: A Survey

专知会员服务

97+阅读 · 2020年3月17日

【雪城大学】深度学习中的异常实例检测:综述论文，Anomalous Instance Detection

【雪城大学】深度学习中的异常实例检测:综述论文，Anomalous Instance Detection

专知会员服务

87+阅读 · 2020年3月17日

中科院信工所发布《深度学习系统的隐私与安全》综述论文，187篇文献总结

中科院信工所发布《深度学习系统的隐私与安全》综述论文，187篇文献总结

专知会员服务

103+阅读 · 2019年12月5日

【南洋理工大学课程】deep_reinforcement_learning（深度强化学习），109页ppt

【南洋理工大学课程】deep_reinforcement_learning（深度强化学习），109页ppt

专知会员服务

105+阅读 · 2019年11月2日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

专知

11+阅读 · 2021年4月23日

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

深度强化学习实验室

20+阅读 · 2020年8月11日

深度学习模型可解释性的研究进展

深度学习模型可解释性的研究进展

专知

26+阅读 · 2020年8月1日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

基于虚拟现实环境的深度学习模型构建

基于虚拟现实环境的深度学习模型构建

MOOC

24+阅读 · 2019年9月28日

「PPT」深度学习中的不确定性估计

「PPT」深度学习中的不确定性估计

专知

27+阅读 · 2019年7月20日

基于深度学习的序列推荐系统：概念，算法与评估

基于深度学习的序列推荐系统：概念，算法与评估

专知

24+阅读 · 2019年6月6日

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

专知

137+阅读 · 2019年1月14日

深度强化学习简介

深度强化学习简介

专知

30+阅读 · 2018年12月3日

展望：模型驱动的深度学习

展望：模型驱动的深度学习

人工智能学家

12+阅读 · 2018年1月23日

相关论文

MetaErr: Towards Predicting Error Patterns in Deep Neural Networks

Arxiv

0+阅读 · 5月3日

Adaptive and AI-Augmented Security Testing: A Systematic Survey of Program Analysis, Feedback-Driven Testing, and Hybrid Learning-Based Approaches

Arxiv

0+阅读 · 4月29日

Agent-Centric Visual Reinforcement Learning under Dynamic Perturbations

Arxiv

0+阅读 · 4月27日

Multimodal Anomaly Detection for Human-Robot Interaction

Arxiv

0+阅读 · 4月10日

DBMF: A Dual-Branch Multimodal Framework for Out-of-Distribution Detection

Arxiv

0+阅读 · 4月9日

Behavior-Constrained Reinforcement Learning with Receding-Horizon Credit Assignment for High-Performance Control

Arxiv

0+阅读 · 4月3日

Self-Optimizing Multi-Agent Systems for Deep Research

Arxiv

0+阅读 · 4月3日

Ego-Foresight: Self-supervised Learning of Agent-Aware Representations for Improved RL

Arxiv

0+阅读 · 4月1日

Effort-Optimized, Accuracy-Driven Labelling and Validation of Test Inputs for DL Systems: A Mixed-Integer Linear Programming Approach

Arxiv

0+阅读 · 3月30日

Distributed Deep Reinforcement Learning: A Survey and A Multi-Player Multi-Agent Learning Toolbox

Arxiv

11+阅读 · 2022年12月1日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于极限学习单元的多生物特征图像深度学习建模与识别研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向多源遥感图像的深度学习技术与系统研究

国家自然科学基金

17+阅读 · 2014年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员