Large language models deployed in the wild must adapt to evolving data, user behavior, and task mixtures without erasing previously acquired capabilities. In practice, this remains difficult: sequential updates induce catastrophic forgetting, while many stabilization methods rely on external procedures that are costly, brittle, or difficult to scale. We present TRC$^{2}$ (Thalamically Routed Cortical Columns), a decoder-only architecture that makes continual learning a property of the backbone itself. TRC$^{2}$ combines stacked cortical columns with a thalamic modulatory pathway for selective inter-column communication and a hippocampal pathway for event selective retrieval, delayed surprise-based writing, and replay-driven consolidation. This design localizes fast plasticity while preserving a slower stable computation pathway. We further introduce a causal memory-update scheme and an online replay controller that adjusts consolidation strength from measured forgetting. Across a task-sequential language-modeling stream over C4, WikiText-103, and GSM8K, TRC$^{2}$ consistently improves task-boundary modeling quality and substantially reduces cumulative forgetting relative to Transformer, Mamba, MoE, DeepSeek and continual learning baselines trained under the same pipeline. Ablations show that the thalamic and hippocampal components are central to the retention gains, while the full model remains competitive in throughput and training cost.


翻译:大型语言模型在实际部署中需适应不断变化的数据、用户行为及任务混合,同时不能抹除已习得的能力。在实践中,这仍具有挑战性:顺序更新会导致灾难性遗忘,而许多稳定化方法依赖昂贵、脆弱或难以扩展的外部流程。我们提出TRC$^{2}$(丘脑路由皮层柱),一种将持续学习作为骨干网络自身属性的解码器架构。TRC$^{2}$将堆叠的皮层柱与用于选择性柱间通信的丘脑调制通路、以及用于事件选择性检索、延迟惊喜驱动写入和重放驱动的巩固的海马通路相结合。该设计在保持缓慢稳定计算通路的同时,实现了快速可塑性的局部化。我们进一步引入因果记忆更新方案和在线重放控制器,通过测量遗忘程度调整巩固强度。在C4、WikiText-103和GSM8K上的任务序列语言建模流中,TRC$^{2}$在相同训练流程下相较于Transformer、Mamba、MoE、DeepSeek及持续学习基线,持续提升了任务边界建模质量并大幅减少了累积遗忘。消融实验表明,丘脑和海马组件是保留增益的核心,而完整模型在吞吐量和训练成本方面仍保持竞争力。

0
下载
关闭预览

相关内容

持续学习(continuallearning,CL) 是 模 拟 大 脑 学 习 的 过 程,按 照 一 定 的 顺 序 对 连 续 非 独 立 同 分 布 的 (independentlyandidenticallydistributed,IID)流数据进行学习,进而根据任务的执行结果对模型进行 增量式更新.持续学习的意义在于高效地转化和利用已经学过的知识来完成新任务的学习,并且能够极 大程度地降低遗忘带来的问题.连续学习研究对智能计算系统自适应地适应环境改变具有重要的意义
大语言模型持续学习:方法、挑战与机遇
专知会员服务
21+阅读 · 3月16日
当持续学习遇上多模态大型语言模型:综述
专知会员服务
32+阅读 · 2025年3月5日
大规模语言模型智能体的终身学习:发展路线图
专知会员服务
46+阅读 · 2025年1月16日
Llama-3-SynE:实现有效且高效的大语言模型持续预训练
专知会员服务
36+阅读 · 2024年7月30日
大语言模型的终身学习综述
专知会员服务
76+阅读 · 2024年6月15日
基础语言模型在持续学习中的最新进展:综述
专知会员服务
35+阅读 · 2024年6月9日
《大型语言模型持续学习》综述
专知会员服务
93+阅读 · 2024年4月26日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
1+阅读 · 今天15:00
21世纪的无人机战争
专知会员服务
2+阅读 · 今天14:05
《量子技术的军事任务技术适配与利用》
专知会员服务
2+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
大语言模型持续学习:方法、挑战与机遇
专知会员服务
21+阅读 · 3月16日
当持续学习遇上多模态大型语言模型:综述
专知会员服务
32+阅读 · 2025年3月5日
大规模语言模型智能体的终身学习:发展路线图
专知会员服务
46+阅读 · 2025年1月16日
Llama-3-SynE:实现有效且高效的大语言模型持续预训练
专知会员服务
36+阅读 · 2024年7月30日
大语言模型的终身学习综述
专知会员服务
76+阅读 · 2024年6月15日
基础语言模型在持续学习中的最新进展:综述
专知会员服务
35+阅读 · 2024年6月9日
《大型语言模型持续学习》综述
专知会员服务
93+阅读 · 2024年4月26日
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员