SHAPO: Sharpness-Aware Policy Optimization for Safe Exploration - 专知论文

会员服务 ·

0

安全探索 · 策略优化 · 不确定 · 不确定性 · 扰动 ·

SHAPO: Sharpness-Aware Policy Optimization for Safe Exploration

翻译：SHAPO：面向安全探索的锐度感知策略优化

Kaustubh Mani,Yann Pequignot,Vincent Mai,Liam Paull

from arxiv, ICLR 2026

Safe exploration is a prerequisite for deploying reinforcement learning (RL) agents in safety-critical domains. In this paper, we approach safe exploration through the lens of epistemic uncertainty, where the actor's sensitivity to parameter perturbations serves as a practical proxy for regions of high uncertainty. We propose Sharpness-Aware Policy Optimization (SHAPO), a sharpness-aware policy update rule that evaluates gradients at perturbed parameters, making policy updates pessimistic with respect to the actor's epistemic uncertainty. Analytically we show that this adjustment implicitly reweighs policy gradients, amplifying the influence of rare unsafe actions while tempering contributions from already safe ones, thereby biasing learning toward conservative behavior in under-explored regions. Across several continuous-control tasks, our method consistently improves both safety and task performance over existing baselines, significantly expanding their Pareto frontiers.

翻译：安全探索是在安全关键领域部署强化学习智能体的前提。本文从认知不确定性的视角探讨安全探索问题，其中智能体对参数扰动的敏感性可作为高不确定性区域的有效代理指标。我们提出锐度感知策略优化（SHAPO），这是一种通过评估扰动参数处的梯度来实现策略更新的锐度感知规则，使策略更新对智能体的认知不确定性保持悲观态度。分析表明，这种调整隐式地重新加权了策略梯度，在增强罕见不安全行为影响的同时抑制已有安全行为的贡献，从而将学习偏向于欠探索区域的保守行为。在多项连续控制任务中，我们的方法相较于现有基线持续提升了安全性与任务性能，显著扩展了其帕累托前沿。

0

相关内容

安全探索

《具备集体态势感知能力的深度强化学习智能体在超视距空战中的应用研究》最新文献

《具备集体态势感知能力的深度强化学习智能体在超视距空战中的应用研究》最新文献

专知会员服务

53+阅读 · 2025年9月23日

认知优势：人工智能在国家安全决策中的核心作用

认知优势：人工智能在国家安全决策中的核心作用

专知会员服务

16+阅读 · 2025年8月16日

《基于深度强化学习与可解释AI的战斗机导航与作战研究》

《基于深度强化学习与可解释AI的战斗机导航与作战研究》

专知会员服务

43+阅读 · 2025年3月1日

深度感知：军事决策的下一个前沿

深度感知：军事决策的下一个前沿

专知会员服务

52+阅读 · 2025年1月3日

【NeurIPS2023】强化学习中的安全探索：一种通用化的公式和算法

【NeurIPS2023】强化学习中的安全探索：一种通用化的公式和算法

专知会员服务

34+阅读 · 2023年10月6日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知会员服务

102+阅读 · 2022年11月24日

《用于控制、探索和安全的样本高效深度强化学习》里尔大学207页博士论文

《用于控制、探索和安全的样本高效深度强化学习》里尔大学207页博士论文

专知会员服务

38+阅读 · 2022年7月21日

【伯克利博士论文】深度强化学习的探索与安全性，178页pdf

专知会员服务

81+阅读 · 2021年5月23日

可解释强化学习，Explainable Reinforcement Learning: A Survey

可解释强化学习，Explainable Reinforcement Learning: A Survey

专知会员服务

133+阅读 · 2020年5月14日

【显著性目标检测| 2019最新综述】深度学习时代的显著目标检测（Salient Object Detection in the Deep Learning Era: An In-Depth Survey），附PDF

【显著性目标检测| 2019最新综述】深度学习时代的显著目标检测（Salient Object Detection in the Deep Learning Era: An In-Depth Survey），附PDF

专知会员服务

42+阅读 · 2019年11月23日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

强化学习《奖励函数设计: Reward Shaping》详细解读

强化学习《奖励函数设计: Reward Shaping》详细解读

深度强化学习实验室

20+阅读 · 2020年9月1日

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

深度强化学习实验室

13+阅读 · 2020年8月23日

强化学习的两大话题之一，仍有极大探索空间

强化学习的两大话题之一，仍有极大探索空间

AI科技评论

22+阅读 · 2020年8月22日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

深度学习在自动驾驶感知领域的应用

深度学习在自动驾驶感知领域的应用

AI100

11+阅读 · 2019年3月6日

强化学习落地！京东等发布综述《深度强化学习在搜索，推荐和在线广告中的应用》

强化学习落地！京东等发布综述《深度强化学习在搜索，推荐和在线广告中的应用》

专知

26+阅读 · 2019年2月19日

网络安全态势感知

网络安全态势感知

计算机与网络安全

26+阅读 · 2018年10月14日

网络安全态势感知浅析

网络安全态势感知浅析

计算机与网络安全

18+阅读 · 2017年10月13日

群体偏好的敏感性度量方法研究和群决策方法的可实施性评价

国家自然科学基金

0+阅读 · 2017年12月31日

智能感知空间中基于QoX的上下文不确定性建模和处理关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于学习的智能化漏洞挖掘关键技术研究

国家自然科学基金

6+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于深度学习的高分辨率PolSAR影像暗目标判别

国家自然科学基金

3+阅读 · 2015年12月31日

面向物联网搜索的群智感知关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

面向武器系统协同的态势感知一致性计算方法研究

国家自然科学基金

55+阅读 · 2011年12月31日

Safe Exploration via Policy Priors

Arxiv

0+阅读 · 6月15日

SAAS: Self-Aware Reinforcement Learning for Over-Search Mitigation in Agentic Search

Arxiv

0+阅读 · 6月13日

Securing Multi-Agent GIS Systems: Risk Evaluation and Prompt Hardening Optimization

Arxiv

0+阅读 · 6月13日

CSPO: Constraint-Sensitive Policy Optimization for Safe Reinforcement Learning

Arxiv

0+阅读 · 6月12日

APPO: Agentic Procedural Policy Optimization

Arxiv

0+阅读 · 6月10日

Safe-RULE: Safe Reinforcement UnLEarning

Arxiv

0+阅读 · 6月8日

ReSkill: Reconciling Skill Creation with Policy Optimization in Agentic RL

Arxiv

0+阅读 · 6月8日

Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses

Arxiv

0+阅读 · 6月1日

Safe Equilibrium Policy Optimization for Strategic Agent Policies

Arxiv

0+阅读 · 5月29日

Robust Probabilistic Shielding for Safe Offline Reinforcement Learning

Arxiv

0+阅读 · 5月11日

VIP会员

文章信息

相关主题

最新内容

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 今天4:35

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

3+阅读 · 今天4:24

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 今天4:18

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 今天4:15

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 今天4:08

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

7+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

“史诗怒火”行动：现代多域作战的重要节点

“史诗怒火”行动：现代多域作战的重要节点

专知会员服务

8+阅读 · 7月30日

《下一代无线网络中的多无人机通信资源管理》

《下一代无线网络中的多无人机通信资源管理》

专知会员服务

8+阅读 · 7月30日

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

专知会员服务

9+阅读 · 7月30日

《人机协同在安全关键型操作决策中的应用》120页

《人机协同在安全关键型操作决策中的应用》120页

专知会员服务

8+阅读 · 7月30日

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

专知会员服务

6+阅读 · 7月30日

相关VIP内容

《具备集体态势感知能力的深度强化学习智能体在超视距空战中的应用研究》最新文献

《具备集体态势感知能力的深度强化学习智能体在超视距空战中的应用研究》最新文献

专知会员服务

53+阅读 · 2025年9月23日

认知优势：人工智能在国家安全决策中的核心作用

认知优势：人工智能在国家安全决策中的核心作用

专知会员服务

16+阅读 · 2025年8月16日

《基于深度强化学习与可解释AI的战斗机导航与作战研究》

《基于深度强化学习与可解释AI的战斗机导航与作战研究》

专知会员服务

43+阅读 · 2025年3月1日

深度感知：军事决策的下一个前沿

深度感知：军事决策的下一个前沿

专知会员服务

52+阅读 · 2025年1月3日

【NeurIPS2023】强化学习中的安全探索：一种通用化的公式和算法

【NeurIPS2023】强化学习中的安全探索：一种通用化的公式和算法

专知会员服务

34+阅读 · 2023年10月6日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知会员服务

102+阅读 · 2022年11月24日

《用于控制、探索和安全的样本高效深度强化学习》里尔大学207页博士论文

《用于控制、探索和安全的样本高效深度强化学习》里尔大学207页博士论文

专知会员服务

38+阅读 · 2022年7月21日

【伯克利博士论文】深度强化学习的探索与安全性，178页pdf

专知会员服务

81+阅读 · 2021年5月23日

可解释强化学习，Explainable Reinforcement Learning: A Survey

可解释强化学习，Explainable Reinforcement Learning: A Survey

专知会员服务

133+阅读 · 2020年5月14日

【显著性目标检测| 2019最新综述】深度学习时代的显著目标检测（Salient Object Detection in the Deep Learning Era: An In-Depth Survey），附PDF

【显著性目标检测| 2019最新综述】深度学习时代的显著目标检测（Salient Object Detection in the Deep Learning Era: An In-Depth Survey），附PDF

专知会员服务

42+阅读 · 2019年11月23日

热门VIP内容

开通专知VIP会员享更多权益服务

隐身技术前沿综述：物理机理、工程实践与战略展望

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

相关资讯

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

强化学习《奖励函数设计: Reward Shaping》详细解读

强化学习《奖励函数设计: Reward Shaping》详细解读

深度强化学习实验室

20+阅读 · 2020年9月1日

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

深度强化学习实验室

13+阅读 · 2020年8月23日

强化学习的两大话题之一，仍有极大探索空间

强化学习的两大话题之一，仍有极大探索空间

AI科技评论

22+阅读 · 2020年8月22日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

深度学习在自动驾驶感知领域的应用

深度学习在自动驾驶感知领域的应用

AI100

11+阅读 · 2019年3月6日

强化学习落地！京东等发布综述《深度强化学习在搜索，推荐和在线广告中的应用》

强化学习落地！京东等发布综述《深度强化学习在搜索，推荐和在线广告中的应用》

专知

26+阅读 · 2019年2月19日

网络安全态势感知

网络安全态势感知

计算机与网络安全

26+阅读 · 2018年10月14日

网络安全态势感知浅析

网络安全态势感知浅析

计算机与网络安全

18+阅读 · 2017年10月13日

相关论文

Safe Exploration via Policy Priors

Arxiv

0+阅读 · 6月15日

SAAS: Self-Aware Reinforcement Learning for Over-Search Mitigation in Agentic Search

Arxiv

0+阅读 · 6月13日

Securing Multi-Agent GIS Systems: Risk Evaluation and Prompt Hardening Optimization

Arxiv

0+阅读 · 6月13日

CSPO: Constraint-Sensitive Policy Optimization for Safe Reinforcement Learning

Arxiv

0+阅读 · 6月12日

APPO: Agentic Procedural Policy Optimization

Arxiv

0+阅读 · 6月10日

Safe-RULE: Safe Reinforcement UnLEarning

Arxiv

0+阅读 · 6月8日

ReSkill: Reconciling Skill Creation with Policy Optimization in Agentic RL

Arxiv

0+阅读 · 6月8日

Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses

Arxiv

0+阅读 · 6月1日

Safe Equilibrium Policy Optimization for Strategic Agent Policies

Arxiv

0+阅读 · 5月29日

Robust Probabilistic Shielding for Safe Offline Reinforcement Learning

Arxiv

0+阅读 · 5月11日

相关基金

群体偏好的敏感性度量方法研究和群决策方法的可实施性评价

国家自然科学基金

0+阅读 · 2017年12月31日

智能感知空间中基于QoX的上下文不确定性建模和处理关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于学习的智能化漏洞挖掘关键技术研究

国家自然科学基金

6+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于深度学习的高分辨率PolSAR影像暗目标判别

国家自然科学基金

3+阅读 · 2015年12月31日

面向物联网搜索的群智感知关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

面向武器系统协同的态势感知一致性计算方法研究

国家自然科学基金

55+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员