Low-Rank Adaptation (LoRA) is the dominant parameter-efficient fine-tuning method due to its favorable compute-performance trade-off, yet it suffers from catastrophic forgetting. We study forgetting through a tractable _mean-field self-attention_ toy model, where tokens evolve as an interacting particle system and LoRA acts as a low-rank perturbation. Using tools from partial differential equations and dynamical systems, we characterize regimes suggesting a phase transition between forgetting and non-forgetting behavior. We show that one phase transition appears with respect to the norm of the perturbation, and the other with respect to the depth of the Transformers. We further bound the time-to-deviation in terms of the perturbation size and spectral quantities, and corroborate the predicted trends with experiments and exploratory analyses on real models under LoRA fine-tuning.


翻译:低秩适配(LoRA)是一种主流参数高效微调方法,因其良好的计算性能权衡而被广泛采用,但存在灾难性遗忘问题。我们通过一个可解析的均值场自注意力简化模型研究遗忘现象——在该模型中,令牌作为相互作用粒子系统演化,而LoRA充当低秩扰动。利用偏微分方程和动力系统工具,我们刻画了遗忘与非遗忘行为之间存在相变的相区特征。研究表明,关于扰动范数存在一个相变,关于Transformer深度存在另一个相变。我们进一步根据扰动大小和谱量给出偏离时间的上界,并通过LoRA微调下真实模型的实验与探索性分析验证了理论预测趋势。

0
下载
关闭预览

相关内容

《对抗环境下面向特种作战的LoRa通信》最新130页
【ICLR2025】大型语言模型的动态低秩稀疏适应
专知会员服务
14+阅读 · 2025年2月21日
TransMLA:多头潜在注意力(MLA)即为所需
专知会员服务
23+阅读 · 2025年2月13日
【ICLR2025】RANDLORA: 全秩参数高效微调大规模模型
专知会员服务
15+阅读 · 2025年2月4日
大语言模型的LoRA研究综述
专知会员服务
55+阅读 · 2024年7月17日
【ACL2024】DoRA:通过动态秩分布增强参数高效微调
专知会员服务
21+阅读 · 2024年5月28日
【ICML2024】DoRA:权重分解的低秩适应
专知会员服务
20+阅读 · 2024年5月6日
【ICLR2024】MathVista:视觉背景下基础模型的数学推理评估
专知会员服务
35+阅读 · 2024年1月20日
图机器学习经典算法 louvain 完全解读
图与推荐
11+阅读 · 2020年8月10日
赛尔笔记 | Attention!注意力机制可解释吗?
哈工大SCIR
23+阅读 · 2019年9月27日
用Attention玩转CV,一文总览自注意力语义分割进展
注意力机制可解释吗?这篇ACL 2019论文说……
机器之心
11+阅读 · 2019年6月16日
何恺明大神的「Focal Loss」,如何更好地理解?
PaperWeekly
10+阅读 · 2017年12月28日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关VIP内容
《对抗环境下面向特种作战的LoRa通信》最新130页
【ICLR2025】大型语言模型的动态低秩稀疏适应
专知会员服务
14+阅读 · 2025年2月21日
TransMLA:多头潜在注意力(MLA)即为所需
专知会员服务
23+阅读 · 2025年2月13日
【ICLR2025】RANDLORA: 全秩参数高效微调大规模模型
专知会员服务
15+阅读 · 2025年2月4日
大语言模型的LoRA研究综述
专知会员服务
55+阅读 · 2024年7月17日
【ACL2024】DoRA:通过动态秩分布增强参数高效微调
专知会员服务
21+阅读 · 2024年5月28日
【ICML2024】DoRA:权重分解的低秩适应
专知会员服务
20+阅读 · 2024年5月6日
【ICLR2024】MathVista:视觉背景下基础模型的数学推理评估
专知会员服务
35+阅读 · 2024年1月20日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员