We investigate how formal temporal logic specifications can enhance the safety and robustness of reinforcement learning (RL) control in aerospace applications. Using the open source AeroBench F-16 simulation benchmark, we train a Proximal Policy Optimization (PPO) agent to regulate engine throttle and track commanded airspeed. The control objective is encoded as a Signal Temporal Logic (STL) requirement to maintain airspeed within a prescribed band during the final seconds of each maneuver. To enforce this specification at run time, we introduce a conformal STL shield that filters the RL agent's actions using online conformal prediction. We compare three settings: (i) PPO baseline, (ii) PPO with a classical rule-based STL shield, and (iii) PPO with the proposed conformal shield, under both nominal conditions and a severe stress scenario involving aerodynamic model mismatch, actuator rate limits, measurement noise, and mid-episode setpoint jumps. Experiments show that the conformal shield preserves STL satisfaction while maintaining near baseline performance and providing stronger robustness guarantees than the classical shield. These results demonstrate that combining formal specification monitoring with data driven RL control can substantially improve the reliability of autonomous flight control in challenging environments.


翻译:本研究探讨了形式化时序逻辑规范如何增强航空航天应用中强化学习控制的安全性与鲁棒性。基于开源AeroBench F-16仿真基准平台,我们训练了近端策略优化智能体以调节发动机油门并跟踪指令空速。控制目标被编码为信号时序逻辑要求:在每个机动动作的最后数秒内将空速维持在预设区间内。为实现运行时规范执行,我们提出一种保形STL防护机制,该机制利用在线保形预测对强化学习智能体的动作进行过滤。我们在以下三种设置下进行对比实验:(i)PPO基准方案,(ii)采用经典基于规则的STL防护机制的PPO方案,以及(iii)采用所提保形防护机制的PPO方案,测试环境包括标称条件和包含气动模型失配、执行器速率限制、测量噪声及任务中段设定点跳变的严苛应力场景。实验表明,保形防护机制在保持接近基准性能的同时,能够维持STL规范满足度,且比经典防护机制提供更强的鲁棒性保证。这些结果证明,将形式化规范监测与数据驱动的强化学习控制相结合,可显著提升自主飞行控制在挑战性环境中的可靠性。

0
下载
关闭预览

相关内容

《可解释性强化学习模型》
专知会员服务
24+阅读 · 2月24日
【CMU博士论文】基于课程学习的鲁棒强化学习
专知会员服务
20+阅读 · 2025年3月27日
《强化学习在战斗识别中的应用》76页
专知会员服务
32+阅读 · 2025年1月12日
【加州理工博士论文】基于学习的鲁棒控制方法,137页pdf
专知会员服务
32+阅读 · 2023年12月23日
基于强化学习的最优控制指令模仿生成方法
专知会员服务
34+阅读 · 2023年12月2日
【ICML2022】鲁棒强化学习的策略梯度法
专知会员服务
38+阅读 · 2022年5月21日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
19+阅读 · 2020年9月1日
探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff?
深度强化学习实验室
13+阅读 · 2020年8月23日
深度学习的快速目标跟踪
AI研习社
13+阅读 · 2018年1月8日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
VIP会员
最新内容
最新“指挥控制”领域出版物合集(简介)
专知会员服务
1+阅读 · 今天15:19
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
3+阅读 · 今天15:13
软件定义多域战术网络:基础与未来方向(综述)
水下战战术决策中的气象与海洋预报(50页报告)
远程空中优势:新一代超视距导弹的兴起
专知会员服务
1+阅读 · 今天14:45
大语言模型溯因推理的统一分类学与综述
专知会员服务
0+阅读 · 今天12:07
相关VIP内容
《可解释性强化学习模型》
专知会员服务
24+阅读 · 2月24日
【CMU博士论文】基于课程学习的鲁棒强化学习
专知会员服务
20+阅读 · 2025年3月27日
《强化学习在战斗识别中的应用》76页
专知会员服务
32+阅读 · 2025年1月12日
【加州理工博士论文】基于学习的鲁棒控制方法,137页pdf
专知会员服务
32+阅读 · 2023年12月23日
基于强化学习的最优控制指令模仿生成方法
专知会员服务
34+阅读 · 2023年12月2日
【ICML2022】鲁棒强化学习的策略梯度法
专知会员服务
38+阅读 · 2022年5月21日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员