Safe-RULE: Safe Reinforcement UnLEarning - 专知论文

会员服务 ·

0

Learning · Performer · 在线 · 样本 · 原点 ·

Safe-RULE: Safe Reinforcement UnLEarning

翻译：Safe-RULE：安全强化反学习

Shixiong Jiang,Taozheng Zhu,Fanxin Kong

from arxiv, 20 pages, 3 figures

Offline safe reinforcement learning (Safe RL) enables policy learning without online interactions, making it suitable for safety-critical systems such as robotics systems. However, its reliance on static datasets exposes offline Safe RL to data poisoning attacks, where adversaries inject malicious samples that compromise safety and induce unsafe policy behavior. In this work, we propose a new learning paradigm, named safe reinforcement unlearning (Safe-RULE), used as a defense framework to remove the influence of poisoned data without retraining from scratch or requiring access to the original training environment. We further extend reinforcement unlearning to offline Safe RL by explicitly accounting for both task performance and safety constraints during the unlearning process. Experiments across benchmark Safe RL tasks demonstrate that our approach effectively enhances safety performance against data poisoning attacks.

翻译：离线安全强化学习能够在无需在线交互的情况下进行策略学习，因而适用于机器人系统等安全关键型系统。然而，其对静态数据集的依赖使离线安全强化学习面临数据投毒攻击的威胁——攻击者通过注入恶意样本破坏安全性，诱发不安全策略行为。本文提出一种名为"安全强化反学习"（Safe-RULE）的新学习范式，该范式作为一种防御框架，可在无需从零开始重新训练或访问原始训练环境的情况下消除受污染数据的影响。我们进一步将强化反学习扩展至离线安全强化学习领域，在反学习过程中明确兼顾任务性能与安全约束。在基准安全强化学习任务上的实验表明，我们的方法能够有效提升对数据投毒攻击的安全防护性能。

0

相关内容

Learning

《用于建模系统攻击路径的强化学习环境》

《用于建模系统攻击路径的强化学习环境》

专知会员服务

23+阅读 · 3月5日

离线强化学习研究综述

离线强化学习研究综述

专知会员服务

39+阅读 · 2025年1月12日

深度学习模型安全：威胁与防御，176页pdf

深度学习模型安全：威胁与防御，176页pdf

专知会员服务

28+阅读 · 2024年12月13日

【博士论文】安全的线上和线下强化学习，142页pdf

【博士论文】安全的线上和线下强化学习，142页pdf

专知会员服务

23+阅读 · 2024年6月12日

安全强化学习综述

安全强化学习综述

专知会员服务

70+阅读 · 2023年8月23日

面向深度强化学习的对抗攻防综述

面向深度强化学习的对抗攻防综述

专知会员服务

66+阅读 · 2023年8月2日

【2023新书】网络安全中的对抗性深度学习:攻击分类，防御机制和学习理论

【2023新书】网络安全中的对抗性深度学习:攻击分类，防御机制和学习理论

专知会员服务

53+阅读 · 2023年3月16日

【AI+军事】附论文《敏感还是不敏感？如何攻击和捍卫文件安全分类模型》

【AI+军事】附论文《敏感还是不敏感？如何攻击和捍卫文件安全分类模型》

专知会员服务

19+阅读 · 2022年4月26日

深度强化学习的攻防与安全性分析综述

深度强化学习的攻防与安全性分析综述

专知会员服务

27+阅读 · 2022年1月16日

首篇《后门学习综述》论文发布，阐述AI系统训练过程的安全性问题

专知会员服务

31+阅读 · 2020年11月21日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

「强化学习可解释性」最新2022综述

「强化学习可解释性」最新2022综述

专知

12+阅读 · 2022年1月16日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

【对抗学习综述论文】-宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

【对抗学习综述论文】-宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

专知

23+阅读 · 2019年4月15日

【智能金融】机器学习在反欺诈中应用

【智能金融】机器学习在反欺诈中应用

产业智能官

35+阅读 · 2019年3月15日

基于逆强化学习的示教学习方法综述

基于逆强化学习的示教学习方法综述

计算机研究与发展

16+阅读 · 2019年2月25日

【强化学习】强化学习到深度强化学习、强化学习商业用例

【强化学习】强化学习到深度强化学习、强化学习商业用例

产业智能官

30+阅读 · 2019年2月9日

【微软亚研130PPT教程】强化学习简介

【微软亚研130PPT教程】强化学习简介

专知

37+阅读 · 2018年10月26日

一文了解强化学习

一文了解强化学习

AI100

15+阅读 · 2018年8月20日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

面向网络系统的一致性安全隐私分析与防护机制设计

国家自然科学基金

2+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

24+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

Safe Exploration via Policy Priors

Arxiv

0+阅读 · 6月15日

From Attacks to Curricula: Learnability-Guided Adversarial Training for Safe Autonomous Driving

Arxiv

0+阅读 · 6月12日

RAMAC: Multimodal Risk-Aware Offline Reinforcement Learning and the Role of Behavior Regularization

Arxiv

0+阅读 · 6月11日

Individual Control Barrier Functions-Guided Diffusion Model for Safe Offline Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 6月10日

Robust Koopman Control Barrier Filters for Safe Actor-Critic Reinforcement Learning

Arxiv

0+阅读 · 6月5日

DPAgent-in-the-Middle: Agentic Defense and Repair Against AI-Groomed Deceptive Patterns

Arxiv

0+阅读 · 6月5日

Learning Safely Without Knowing the World:COMPASS-Hedge

Arxiv

0+阅读 · 5月22日

SafeDiffusion-R1: Online Reward Steering for Safe Diffusion Post-Training

Arxiv

0+阅读 · 5月18日

Learning to Stay Safe: Adaptive Regularization Against Safety Degradation during Fine-Tuning

Arxiv

0+阅读 · 5月11日

Robust Probabilistic Shielding for Safe Offline Reinforcement Learning

Arxiv

0+阅读 · 5月11日

VIP会员

文章信息

相关主题

最新内容

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 今天4:35

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

3+阅读 · 今天4:24

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 今天4:18

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 今天4:15

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 今天4:08

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

7+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

“史诗怒火”行动：现代多域作战的重要节点

“史诗怒火”行动：现代多域作战的重要节点

专知会员服务

8+阅读 · 7月30日

《下一代无线网络中的多无人机通信资源管理》

《下一代无线网络中的多无人机通信资源管理》

专知会员服务

8+阅读 · 7月30日

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

专知会员服务

9+阅读 · 7月30日

《人机协同在安全关键型操作决策中的应用》120页

《人机协同在安全关键型操作决策中的应用》120页

专知会员服务

8+阅读 · 7月30日

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

专知会员服务

6+阅读 · 7月30日

相关VIP内容

《用于建模系统攻击路径的强化学习环境》

《用于建模系统攻击路径的强化学习环境》

专知会员服务

23+阅读 · 3月5日

离线强化学习研究综述

离线强化学习研究综述

专知会员服务

39+阅读 · 2025年1月12日

深度学习模型安全：威胁与防御，176页pdf

深度学习模型安全：威胁与防御，176页pdf

专知会员服务

28+阅读 · 2024年12月13日

【博士论文】安全的线上和线下强化学习，142页pdf

【博士论文】安全的线上和线下强化学习，142页pdf

专知会员服务

23+阅读 · 2024年6月12日

安全强化学习综述

安全强化学习综述

专知会员服务

70+阅读 · 2023年8月23日

面向深度强化学习的对抗攻防综述

面向深度强化学习的对抗攻防综述

专知会员服务

66+阅读 · 2023年8月2日

【2023新书】网络安全中的对抗性深度学习:攻击分类，防御机制和学习理论

【2023新书】网络安全中的对抗性深度学习:攻击分类，防御机制和学习理论

专知会员服务

53+阅读 · 2023年3月16日

【AI+军事】附论文《敏感还是不敏感？如何攻击和捍卫文件安全分类模型》

【AI+军事】附论文《敏感还是不敏感？如何攻击和捍卫文件安全分类模型》

专知会员服务

19+阅读 · 2022年4月26日

深度强化学习的攻防与安全性分析综述

深度强化学习的攻防与安全性分析综述

专知会员服务

27+阅读 · 2022年1月16日

首篇《后门学习综述》论文发布，阐述AI系统训练过程的安全性问题

专知会员服务

31+阅读 · 2020年11月21日

热门VIP内容

开通专知VIP会员享更多权益服务

隐身技术前沿综述：物理机理、工程实践与战略展望

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

相关资讯

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

「强化学习可解释性」最新2022综述

「强化学习可解释性」最新2022综述

专知

12+阅读 · 2022年1月16日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

【对抗学习综述论文】-宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

【对抗学习综述论文】-宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

专知

23+阅读 · 2019年4月15日

【智能金融】机器学习在反欺诈中应用

【智能金融】机器学习在反欺诈中应用

产业智能官

35+阅读 · 2019年3月15日

基于逆强化学习的示教学习方法综述

基于逆强化学习的示教学习方法综述

计算机研究与发展

16+阅读 · 2019年2月25日

【强化学习】强化学习到深度强化学习、强化学习商业用例

【强化学习】强化学习到深度强化学习、强化学习商业用例

产业智能官

30+阅读 · 2019年2月9日

【微软亚研130PPT教程】强化学习简介

【微软亚研130PPT教程】强化学习简介

专知

37+阅读 · 2018年10月26日

一文了解强化学习

一文了解强化学习

AI100

15+阅读 · 2018年8月20日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

相关论文

Safe Exploration via Policy Priors

Arxiv

0+阅读 · 6月15日

From Attacks to Curricula: Learnability-Guided Adversarial Training for Safe Autonomous Driving

Arxiv

0+阅读 · 6月12日

RAMAC: Multimodal Risk-Aware Offline Reinforcement Learning and the Role of Behavior Regularization

Arxiv

0+阅读 · 6月11日

Individual Control Barrier Functions-Guided Diffusion Model for Safe Offline Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 6月10日

Robust Koopman Control Barrier Filters for Safe Actor-Critic Reinforcement Learning

Arxiv

0+阅读 · 6月5日

DPAgent-in-the-Middle: Agentic Defense and Repair Against AI-Groomed Deceptive Patterns

Arxiv

0+阅读 · 6月5日

Learning Safely Without Knowing the World:COMPASS-Hedge

Arxiv

0+阅读 · 5月22日

SafeDiffusion-R1: Online Reward Steering for Safe Diffusion Post-Training

Arxiv

0+阅读 · 5月18日

Learning to Stay Safe: Adaptive Regularization Against Safety Degradation during Fine-Tuning

Arxiv

0+阅读 · 5月11日

Robust Probabilistic Shielding for Safe Offline Reinforcement Learning

Arxiv

0+阅读 · 5月11日

相关基金

面向网络系统的一致性安全隐私分析与防护机制设计

国家自然科学基金

2+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

24+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员