Adapter-based methods have become a cost-effective approach to continual learning (CL) for Large Language Models (LLMs), by sequentially learning a low-rank update matrix for each task. To mitigate catastrophic forgetting, state-of-the-art approaches impose constraints on new adapters with respect to the previous ones, by targeting either subspace or coordinate-wise interference. In this paper, we propose JumpLoRA, a novel framework to adaptively induce sparsity in the Low-Rank Adaptation (LoRA) blocks through the use of JumpReLU gating. The method achieves dynamic parameter isolation, which helps prevent task interference. We demonstrate that our method is highly modular and compatible with LoRA-based CL approaches. Specifically, it significantly boosts the performance of IncLoRA and outperforms the leading state-of-the-art CL method, ELLA.


翻译:摘要:基于适配器的方法通过为每个任务顺序学习低秩更新矩阵,已成为大型语言模型(LLMs)实现持续学习(CL)的一种经济高效途径。为缓解灾难性遗忘,现有最优方法通过针对子空间或坐标级干扰施加约束,将新适配器与先前适配器相关联。本文提出JumpLoRA——一种利用JumpReLU门控机制在低秩适配(LoRA)模块中自适应诱导稀疏性的新型框架。该方法实现了动态参数隔离,有助于防止任务干扰。我们证明该方法具有高度模块化特性,且与基于LoRA的持续学习方案兼容。具体而言,它显著提升了IncLoRA的性能,并超越了当前最优持续学习方法ELLA。

0
下载
关闭预览

相关内容

大语言模型持续学习:方法、挑战与机遇
专知会员服务
20+阅读 · 3月16日
强化学习增强的大型语言模型:综述
专知会员服务
52+阅读 · 2024年12月17日
Llama-3-SynE:实现有效且高效的大语言模型持续预训练
专知会员服务
36+阅读 · 2024年7月30日
大语言模型的LoRA研究综述
专知会员服务
55+阅读 · 2024年7月17日
《大型语言模型持续学习》综述
专知会员服务
93+阅读 · 2024年4月26日
【CVPR2024】卷积提示"遇见了语言模型的持续学习
专知会员服务
18+阅读 · 2024年4月1日
迁移学习在深度学习中的应用
专知
24+阅读 · 2017年12月24日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
AutoScientists:自组织智能体团队驱动长期科学实验
战略前沿人工智能的再思考(中文)
专知会员服务
2+阅读 · 今天14:53
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
2+阅读 · 今天14:51
“史诗怒火行动”中美军损失的作战飞机
专知会员服务
2+阅读 · 今天14:38
ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
5+阅读 · 5月28日
Agent Harness综述:大模型智能体执行器工程全景
专知会员服务
13+阅读 · 5月28日
《基于理论的威慑效能评估》
专知会员服务
8+阅读 · 5月28日
相关VIP内容
大语言模型持续学习:方法、挑战与机遇
专知会员服务
20+阅读 · 3月16日
强化学习增强的大型语言模型:综述
专知会员服务
52+阅读 · 2024年12月17日
Llama-3-SynE:实现有效且高效的大语言模型持续预训练
专知会员服务
36+阅读 · 2024年7月30日
大语言模型的LoRA研究综述
专知会员服务
55+阅读 · 2024年7月17日
《大型语言模型持续学习》综述
专知会员服务
93+阅读 · 2024年4月26日
【CVPR2024】卷积提示"遇见了语言模型的持续学习
专知会员服务
18+阅读 · 2024年4月1日
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员