可解释强化学习技术有助于洞察深度强化学习模型的决策过程,并可用于在部署前识别策略中的脆弱性与缺陷,但这些技术同时也暴露了关键的策略信息及相关脆弱性,对手可利用这些信息针对训练后的策略发起更高效、更具破坏性的对抗性攻击。本文介绍ARLIN工具包,这是一个开源Python库,通过提供详细、人类可理解的解释性输出,识别训练后的深度强化学习模型中潜在的脆弱点和关键环节。为展示ARLIN的有效性,我们针对一个公开可用的深度强化学习模型提供了解释性可视化与脆弱性分析,并演示如何利用ARLIN生成的输出来成功降低模型的整体性能,同时限制攻击的整体可探测性。开源代码存储库可在 https://github.com/mitre/arlin 下载。

本文介绍了ARLIN工具包,这是一个用Python编写的开源研究库,为深度强化学习模型提供解释性输出和脆弱性检测功能,专门设计用于增强模型保证并识别训练后模型内潜在的失效点。据我们所知,ARLIN是首个专注于利用全局可解释性技术、在部署前对深度强化学习模型进行保证的开源Python工具包。为测试ARLIN的有效性,我们使用它来识别一个公开深度强化学习模型中的脆弱性,并演示对手如何利用该信息在训练环境中成功降低模型的整体性能,同时相较于当前最先进的对抗攻击时序方法,降低了攻击的可探测性。

本文为可解释与对抗性深度强化学习领域引入了三项主要贡献:

• ARLIN工具包:首个开源Python工具包,专注于利用全局可解释性技术,通过人类可理解的分析可视化,在部署前对深度强化学习模型进行保证。

• 一种利用解释性输出来识别攻击深度强化学习模型最佳时机的新技术,以确保策略失效和被操纵。

• 用于衡量针对深度强化学习模型的对抗攻击在人类与机器观察者面前可探测性的新度量标准。

成为VIP会员查看完整内容
25

相关内容

军事防务数据板块介绍:系统化采集、存储、管理、分析与军事国防安全相关信息的专用数据板块,其核心在于整合全球新兴国防技术(军事人工智能、无人系统等)、热点案例(俄乌战争、美以伊战争)等方面的最新时讯、研究报告/论文、条令法规、案例分析,为战略研判、情报分析、决策支持等提供知识支撑。
《分布式多智能体强化学习策略的可解释性研究》
专知会员服务
29+阅读 · 2025年11月17日
《可解释深度强化学习综述》
专知会员服务
40+阅读 · 2025年2月12日
面向强化学习的可解释性研究综述
专知会员服务
44+阅读 · 2024年7月30日
【2023新书】可解释强化学习,68页pdf
专知会员服务
79+阅读 · 2023年8月25日
【NeurIPS2022】通过模型转换的可解释强化学习
专知会员服务
38+阅读 · 2022年10月4日
基于模型的强化学习综述
专知会员服务
149+阅读 · 2022年7月13日
强化学习可解释性基础问题探索和方法综述
专知会员服务
92+阅读 · 2022年1月16日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【MIT博士论文】数据高效强化学习,176页pdf
「强化学习可解释性」最新2022综述
专知
12+阅读 · 2022年1月16日
强化学习精品书籍
平均机器
26+阅读 · 2019年1月2日
一文了解强化学习
AI100
15+阅读 · 2018年8月20日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
On Computation and Reinforcement Learning
Arxiv
22+阅读 · 2023年11月2日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
《分布式多智能体强化学习策略的可解释性研究》
专知会员服务
29+阅读 · 2025年11月17日
《可解释深度强化学习综述》
专知会员服务
40+阅读 · 2025年2月12日
面向强化学习的可解释性研究综述
专知会员服务
44+阅读 · 2024年7月30日
【2023新书】可解释强化学习,68页pdf
专知会员服务
79+阅读 · 2023年8月25日
【NeurIPS2022】通过模型转换的可解释强化学习
专知会员服务
38+阅读 · 2022年10月4日
基于模型的强化学习综述
专知会员服务
149+阅读 · 2022年7月13日
强化学习可解释性基础问题探索和方法综述
专知会员服务
92+阅读 · 2022年1月16日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员