Continual reinforcement learning must balance retention with adaptation, yet many methods still rely on \emph{single-model preservation}, committing to one evolving policy as the main reusable solution across tasks. Even when a previously successful policy is retained, it may no longer provide a reliable starting point for rapid adaptation after interference, reflecting a form of \emph{loss of plasticity} that single-policy preservation cannot address. Inspired by quality-diversity methods, we introduce \textsc{TeLAPA} (Transfer-Enabled Latent-Aligned Policy Archives), a continual RL framework that organizes behaviorally diverse policy neighborhoods into per-task archives and maintains a shared latent space so that archived policies remain comparable and reusable under non-stationary drift. This perspective shifts continual RL from retaining isolated solutions to maintaining \emph{skill-aligned neighborhoods} with competent and behaviorally related policies that support future relearning. In our MiniGrid CL setting, \textsc{TeLAPA} learns more tasks successfully, recovers competence faster on revisited tasks after interference, and retains higher performance across a sequence of tasks. Our analyses show that source-optimal policies are often not transfer-optimal, even within a local competent neighborhood, and that effective reuse depends on retaining and selecting among multiple nearby alternatives rather than collapsing them to one representative. Together, these results reframe continual RL around reusable and competent policy neighborhoods, providing a route beyond single-model preservation toward more plastic lifelong agents.


翻译:持续强化学习需要在保持与适应之间取得平衡,然而许多方法仍依赖于*单一模型保持*,即承诺采用一个不断演化的策略作为跨任务的主要可重用解决方案。即使保留了先前成功的策略,经过干扰后,它可能不再为快速适应提供可靠起点,这体现了一种单一策略保持无法解决的*可塑性丧失*形式。受质量-多样性方法的启发,我们提出了 \textsc{TeLAPA}(支持迁移的潜在对齐策略档案库),这是一个持续强化学习框架,它将行为多样化的策略邻域组织成每个任务的档案库,并维护共享潜在空间,使得已存档的策略在非平稳漂移下保持可比性和可重用性。这一视角将持续强化学习从保留孤立解决方案转变为维护*技能对齐邻域*,其中包含具备能力且行为相关的策略,以支持未来的再学习。在MiniGrid持续学习场景中,\textsc{TeLAPA} 能够成功学习更多任务,在发生干扰后快速恢复对已访问任务的胜任能力,并在整个任务序列中保持更高性能。我们的分析表明,即使在局部胜任邻域内,源最优策略通常并非迁移最优策略,而有效的重用依赖于保留和选择多个邻近替代方案,而非将它们合并为一个代表。这些结果共同将持续强化学习重新定位为围绕可重用且胜任的策略邻域,为超越单一模型保持、迈向更具可塑性的终身智能体提供了一条路径。

0
下载
关闭预览

相关内容

《可解释性强化学习模型》
专知会员服务
25+阅读 · 2月24日
【ICML2025】用于可扩展持续强化学习的自组合策略
专知会员服务
12+阅读 · 2025年6月24日
面向强化学习的可解释性研究综述
专知会员服务
44+阅读 · 2024年7月30日
【综述】持续学习与预训练模型综述
专知会员服务
55+阅读 · 2024年1月30日
基于模型的强化学习综述
专知会员服务
48+阅读 · 2023年1月9日
专知会员服务
15+阅读 · 2021年9月25日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
【Uber AI新论文】持续元学习,Learning to Continually Learn
专知会员服务
37+阅读 · 2020年2月27日
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
「强化学习可解释性」最新2022综述
专知
12+阅读 · 2022年1月16日
强化学习的两大话题之一,仍有极大探索空间
AI科技评论
22+阅读 · 2020年8月22日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
3+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关VIP内容
《可解释性强化学习模型》
专知会员服务
25+阅读 · 2月24日
【ICML2025】用于可扩展持续强化学习的自组合策略
专知会员服务
12+阅读 · 2025年6月24日
面向强化学习的可解释性研究综述
专知会员服务
44+阅读 · 2024年7月30日
【综述】持续学习与预训练模型综述
专知会员服务
55+阅读 · 2024年1月30日
基于模型的强化学习综述
专知会员服务
48+阅读 · 2023年1月9日
专知会员服务
15+阅读 · 2021年9月25日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
【Uber AI新论文】持续元学习,Learning to Continually Learn
专知会员服务
37+阅读 · 2020年2月27日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员