Deep reinforcement learning (DeepRL) agents surpass human-level performance in many tasks. However, the direct mapping from states to actions makes it hard to interpret the rationale behind the decision-making of the agents. In contrast to previous a-posteriori methods for visualizing DeepRL policies, in this work, we propose to equip the DeepRL model with an innate visualization ability. Our proposed agent, named region-sensitive Rainbow (RS-Rainbow), is an end-to-end trainable network based on the original Rainbow, a powerful deep Q-network agent. It learns important regions in the input domain via an attention module. At inference time, after each forward pass, we can visualize regions that are most important to decision-making by backpropagating gradients from the attention module to the input frames. The incorporation of our proposed module not only improves model interpretability, but leads to performance improvement. Extensive experiments on games from the Atari 2600 suite demonstrate the effectiveness of RS-Rainbow.


翻译:深度强化学习(DeepRL)智能体在许多任务中超越了人类水平的表现。然而,从状态到动作的直接映射使得解释智能体决策背后的原理变得困难。与以往用于可视化深度强化学习策略的事后方法不同,本文我们提出为深度强化学习模型赋予内在的可视化能力。我们提出的智能体,名为区域敏感彩虹(RS-Rainbow),是基于原始彩虹(Rainbow)——一个强大的深度Q网络智能体——的端到端可训练网络。它通过注意力模块学习输入域中的重要区域。在推理时,每次前向传播后,我们可以通过将梯度从注意力模块反向传播到输入帧,来可视化对决策最重要的区域。我们所提出的模块不仅提升了模型的可解释性,还带来了性能提升。在Atari 2600套件游戏上的大量实验证明了RS-Rainbow的有效性。

0
下载
关闭预览

相关内容

斯坦福大学最新【强化学习】2022课程,含ppt
专知会员服务
134+阅读 · 2022年2月27日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
强化学习三篇论文 避免遗忘等
CreateAMind
20+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
OpenAI官方发布:强化学习中的关键论文
专知
14+阅读 · 2018年12月12日
资源|斯坦福课程:深度学习理论!
全球人工智能
17+阅读 · 2017年11月9日
可解释的CNN
CreateAMind
18+阅读 · 2017年10月5日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Multi-Domain Multi-Task Rehearsal for Lifelong Learning
Arxiv
12+阅读 · 2020年12月14日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
1+阅读 · 今天14:45
定向能反无人机系统最新发展动态
专知会员服务
4+阅读 · 今天13:50
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 今天13:33
相关资讯
强化学习三篇论文 避免遗忘等
CreateAMind
20+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
OpenAI官方发布:强化学习中的关键论文
专知
14+阅读 · 2018年12月12日
资源|斯坦福课程:深度学习理论!
全球人工智能
17+阅读 · 2017年11月9日
可解释的CNN
CreateAMind
18+阅读 · 2017年10月5日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
相关基金
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员