In reinforcement learning, abstraction methods that remove unnecessary information from the observation are commonly used to learn policies which generalize better to unseen tasks. However, these methods often overlook a crucial weakness: the function which extracts the reduced-information representation has unknown generalization ability in unseen observations. In this paper, we address this problem by presenting an information removal method which more reliably generalizes to new states. We accomplish this by using a learned masking function which operates on, and is integrated with, the attention weights within an attention-based policy network. We demonstrate that our method significantly improves policy generalization to unseen tasks in the Procgen benchmark compared to standard PPO and masking approaches.


翻译:在强化学习中,通过从观测中移除不必要信息的抽象方法通常被用来学习能够更好地泛化到未见任务的策略。然而,这些方法往往忽视了一个关键缺陷:用于提取降维信息表示的函数在未见观测中的泛化能力是未知的。本文通过提出一种能够更可靠地泛化到新状态的信息移除方法来解决这一问题。我们通过使用一个学习得到的掩码函数来实现这一目标,该函数作用于基于注意力的策略网络中的注意力权重,并与这些权重集成。实验表明,在Procgen基准测试中,与标准PPO及掩码方法相比,我们的方法显著提升了策略在未见任务上的泛化能力。

0
下载
关闭预览

相关内容

《分布式多智能体强化学习策略的可解释性研究》
专知会员服务
28+阅读 · 2025年11月17日
深度学习中泛化的量化、理解与改进
专知会员服务
17+阅读 · 2025年9月13日
【阿姆斯特丹博士论文】在测试时学习泛化
专知会员服务
13+阅读 · 2025年7月16日
面向强化学习的可解释性研究综述
专知会员服务
44+阅读 · 2024年7月30日
【牛津大学博士论文】强化学习时间抽象和泛化,196页pdf
【DTU博士论文】结构化表示学习的泛化
专知会员服务
53+阅读 · 2023年4月27日
【CVPR2021】现实世界域泛化的自适应方法
专知会员服务
58+阅读 · 2021年3月31日
「强化学习可解释性」最新2022综述
专知
12+阅读 · 2022年1月16日
【ICML2021】因果匹配领域泛化
专知
12+阅读 · 2021年8月12日
Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证
深度强化学习实验室
20+阅读 · 2020年8月11日
【论文笔记】自注意力图池化
专知
82+阅读 · 2019年11月18日
赛尔笔记 | Attention!注意力机制可解释吗?
哈工大SCIR
23+阅读 · 2019年9月27日
论文笔记之attention mechanism专题1:SA-Net(CVPR 2018)
统计学习与视觉计算组
16+阅读 · 2018年4月5日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
最新内容
《系统簇式多域作战规划范畴论框架》
专知会员服务
5+阅读 · 4月20日
高效视频扩散模型:进展与挑战
专知会员服务
2+阅读 · 4月20日
乌克兰前线的五项创新
专知会员服务
7+阅读 · 4月20日
 军事通信系统与设备的技术演进综述
专知会员服务
5+阅读 · 4月20日
《北约标准:医疗评估手册》174页
专知会员服务
5+阅读 · 4月20日
《提升生成模型的安全性与保障》博士论文
专知会员服务
5+阅读 · 4月20日
美国当前高超音速导弹发展概述
专知会员服务
4+阅读 · 4月19日
无人机蜂群建模与仿真方法
专知会员服务
14+阅读 · 4月19日
相关VIP内容
《分布式多智能体强化学习策略的可解释性研究》
专知会员服务
28+阅读 · 2025年11月17日
深度学习中泛化的量化、理解与改进
专知会员服务
17+阅读 · 2025年9月13日
【阿姆斯特丹博士论文】在测试时学习泛化
专知会员服务
13+阅读 · 2025年7月16日
面向强化学习的可解释性研究综述
专知会员服务
44+阅读 · 2024年7月30日
【牛津大学博士论文】强化学习时间抽象和泛化,196页pdf
【DTU博士论文】结构化表示学习的泛化
专知会员服务
53+阅读 · 2023年4月27日
【CVPR2021】现实世界域泛化的自适应方法
专知会员服务
58+阅读 · 2021年3月31日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员