We revisit continual learning~(CL), which enables pre-trained vision transformers (ViTs) to sequentially fine-tune on new downstream tasks over time. However, as the scale of these models increases, catastrophic forgetting remains a more serious challenge. Recent studies highlight a crossover between CL techniques and parameter-efficient fine-tuning (PEFT), which focuses on fine-tuning only a small set of trainable parameters to adapt to downstream tasks, such as low-rank adaptation (LoRA). While LoRA achieves faster convergence and requires fewer trainable parameters, it has seldom been explored in the context of continual learning. To address this gap, we propose a novel PEFT-CL method called Dual Low-Rank Adaptation (DualLoRA), which introduces both an orthogonal LoRA adapter and a residual LoRA adapter parallel to pre-trained weights in each layer. These components are orchestrated by a dynamic memory mechanism to strike a balance between stability and plasticity. Additionally, we propose a scheme to predict task identity with confidence and calibrate the model's outputs accordingly. On ViT-based models, we demonstrate that DualLoRA offers significant advantages in accuracy, inference speed, and computation efficiency in training over existing CL methods across multiple benchmarks.


翻译:我们重新审视持续学习(continual learning, CL)问题,其目标在于使预训练的视觉Transformer(ViTs)能够在新下游任务上随时间顺序进行微调。然而,随着这些模型规模的增大,灾难性遗忘问题变得更为严峻。近期研究揭示了持续学习技术与参数高效微调(PEFT)之间的交叉关联,后者专注于仅微调少量可训练参数以适应下游任务,例如低秩适配(LoRA)。尽管LoRA能实现更快的收敛速度并需要更少的可训练参数,但它在持续学习场景中的应用仍鲜有探索。为填补这一空白,我们提出一种名为双低秩适配(DualLoRA)的新型参数高效微调持续学习方法,该方法在每个层中并行引入正交LoRA适配器和残差LoRA适配器至预训练权重。这些组件通过动态记忆机制协调运作,以在稳定性和可塑性之间取得平衡。此外,我们提出一种方案,可置信地预测任务身份并相应校准模型输出。基于ViT模型的实验表明,在多个基准测试中,DualLoRA在准确率、推理速度和训练计算效率方面相较于现有持续学习方法具有显著优势。

0
下载
关闭预览

相关内容

【牛津博士论文】考虑计算成本的可扩展持续深度学习
专知会员服务
16+阅读 · 2025年3月2日
【NeurIPS2024】注意力迁移对视觉Transformer的惊人有效性研究
【CVPR2024】卷积提示"遇见了语言模型的持续学习
专知会员服务
18+阅读 · 2024年4月1日
【综述】持续学习与预训练模型综述
专知会员服务
55+阅读 · 2024年1月30日
【NeurIPS2022】SparCL:边缘稀疏持续学习
专知会员服务
24+阅读 · 2022年9月22日
【Uber AI新论文】持续元学习,Learning to Continually Learn
专知会员服务
37+阅读 · 2020年2月27日
深度学习的下一步:Transformer和注意力机制
云头条
56+阅读 · 2019年9月14日
迁移自适应学习最新综述,附21页论文下载
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
深度学习中的注意力机制
人工智能头条
16+阅读 · 2017年11月2日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 22分钟前
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 24分钟前
美以伊冲突:无人机与人工智能的运用
专知会员服务
2+阅读 · 36分钟前
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 56分钟前
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员