Continual reinforcement learning must balance retention with adaptation, yet many methods still rely on \emph{single-model preservation}, committing to one evolving policy as the main reusable solution across tasks. Even when a previously successful policy is retained, it may no longer provide a reliable starting point for rapid adaptation after interference, reflecting a form of \emph{loss of plasticity} that single-policy preservation cannot address. Inspired by quality-diversity methods, we introduce \textsc{TeLAPA} (Transfer-Enabled Latent-Aligned Policy Archives), a continual RL framework that organizes behaviorally diverse policy neighborhoods into per-task archives and maintains a shared latent space so that archived policies remain comparable and reusable under non-stationary drift. This perspective shifts continual RL from retaining isolated solutions to maintaining \emph{skill-aligned neighborhoods} with competent and behaviorally related policies that support future relearning. In our MiniGrid CL setting, \textsc{TeLAPA} learns more tasks successfully, recovers competence faster on revisited tasks after interference, and retains higher performance across a sequence of tasks. Our analyses show that source-optimal policies are often not transfer-optimal, even within a local competent neighborhood, and that effective reuse depends on retaining and selecting among multiple nearby alternatives rather than collapsing them to one representative. Together, these results reframe continual RL around reusable and competent policy neighborhoods, providing a route beyond single-model preservation toward more plastic lifelong agents.


翻译:持续强化学习必须在保持与适应之间取得平衡,然而许多方法仍依赖**单一模型保存**,即承诺将一种不断演化的策略作为跨任务的主要可复用方案。即使保留了先前成功的策略,经过干扰后,它可能不再为快速适应提供可靠的起点,这反映了**可塑性丧失**的一种形式,而单一策略保存无法解决这一问题。受质量-多样性方法的启发,我们提出**TeLAPA**(支持迁移的潜在对齐策略档案馆),这是一种持续强化学习框架,它将行为多样的策略邻域组织为每个任务的档案馆,并维护一个共享的潜空间,使得存档的策略在非平稳漂移下仍具有可比性和可复用性。这一视角将持续强化学习从保留孤立解决方案转变为维护**技能对齐邻域**,其中包含有能力且行为相关的策略,以支持未来的再学习。在我们的MiniGrid持续学习设定中,TeLAPA能成功学习更多任务,在干扰后更快恢复对已访问任务的技能掌握,并在整个任务序列中保持更高的性能。分析表明,即使在一个局部有能力的邻域内,源最优策略往往不是迁移最优的,且有效的复用取决于保留并选择多个邻近替代方案,而非将其合并为一个代表。这些结果共同将持续强化学习重新定位为围绕可复用的能力策略邻域,为超越单一模型保存、迈向更具可塑性的终身智能体提供了一条路径。

0
下载
关闭预览

相关内容

《可解释性强化学习模型》
专知会员服务
25+阅读 · 2月24日
【ICML2025】用于可扩展持续强化学习的自组合策略
专知会员服务
12+阅读 · 2025年6月24日
面向强化学习的可解释性研究综述
专知会员服务
44+阅读 · 2024年7月30日
【综述】持续学习与预训练模型综述
专知会员服务
55+阅读 · 2024年1月30日
基于模型的强化学习综述
专知会员服务
149+阅读 · 2022年7月13日
专知会员服务
15+阅读 · 2021年9月25日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
【Uber AI新论文】持续元学习,Learning to Continually Learn
专知会员服务
37+阅读 · 2020年2月27日
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
「强化学习可解释性」最新2022综述
专知
12+阅读 · 2022年1月16日
强化学习的两大话题之一,仍有极大探索空间
AI科技评论
22+阅读 · 2020年8月22日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
6+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
《可解释性强化学习模型》
专知会员服务
25+阅读 · 2月24日
【ICML2025】用于可扩展持续强化学习的自组合策略
专知会员服务
12+阅读 · 2025年6月24日
面向强化学习的可解释性研究综述
专知会员服务
44+阅读 · 2024年7月30日
【综述】持续学习与预训练模型综述
专知会员服务
55+阅读 · 2024年1月30日
基于模型的强化学习综述
专知会员服务
149+阅读 · 2022年7月13日
专知会员服务
15+阅读 · 2021年9月25日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
【Uber AI新论文】持续元学习,Learning to Continually Learn
专知会员服务
37+阅读 · 2020年2月27日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员