Despite its huge number of variants, standard Low-Rank Adaptation (LoRA) is still a dominant technique for parameter-efficient fine-tuning (PEFT). Nonetheless, it faces persistent challenges, including the pre-selection of an optimal rank and rank-specific hyper-parameters, as well as the deployment complexity of heterogeneous-rank modules and more sophisticated LoRA derivatives. In this work, we introduce LoRA-Squeeze, a simple and efficient methodology that aims to improve standard LoRA learning by changing LoRA module ranks either post-hoc or dynamically during training}. Our approach posits that it is better to first learn an expressive, higher-rank solution and then compress it, rather than learning a constrained, low-rank solution directly. The method involves fine-tuning with a deliberately high(er) source rank, reconstructing or efficiently approximating the reconstruction of the full weight update matrix, and then using Randomized Singular Value Decomposition (RSVD) to create a new, compressed LoRA module at a lower target rank. Extensive experiments across 13 text and 10 vision-language tasks show that post-hoc compression often produces lower-rank adapters that outperform those trained directly at the target rank, especially if a small number of fine-tuning steps at the target rank is allowed. Moreover, a gradual, in-tuning rank annealing variant of LoRA-Squeeze consistently achieves the best LoRA size-performance trade-off.


翻译:尽管存在大量变体,标准的低秩自适应(LoRA)仍然是参数高效微调(PEFT)的主导技术。然而,它仍面临持续存在的挑战,包括最优秩及秩特定超参数的预选、异构秩模块的部署复杂性以及更复杂的LoRA衍生方法。本文提出LoRA-Squeeze,这是一种通过在训练后或训练期间动态调整LoRA模块秩来改进标准LoRA学习的简单高效方法。我们的方法主张,首先学习一个表达能力更强的高秩解再进行压缩,优于直接学习受约束的低秩解。该方法包括:使用刻意设定的较高源秩进行微调,重构或高效近似重构完整的权重更新矩阵,然后利用随机奇异值分解(RSVD)创建一个新的、压缩至更低目标秩的LoRA模块。在13项文本任务和10项视觉语言任务上的大量实验表明,后验压缩通常能产生比直接在目标秩上训练效果更优的低秩适配器,尤其是在允许少量目标秩微调步骤的情况下。此外,LoRA-Squeeze的一种渐进式动态秩退火变体始终能实现最佳的LoRA尺寸与性能权衡。

0
下载
关闭预览

相关内容

【ICLR2025】大型语言模型的动态低秩稀疏适应
专知会员服务
14+阅读 · 2025年2月21日
【ICLR2025】RANDLORA: 全秩参数高效微调大规模模型
专知会员服务
15+阅读 · 2025年2月4日
《面向基础模型的高效参数微调》综述
专知会员服务
33+阅读 · 2025年1月24日
大语言模型的LoRA研究综述
专知会员服务
54+阅读 · 2024年7月17日
【ACL2024】DoRA:通过动态秩分布增强参数高效微调
专知会员服务
21+阅读 · 2024年5月28日
【ICML2024】DoRA:权重分解的低秩适应
专知会员服务
20+阅读 · 2024年5月6日
【ICLR2024】MathVista:视觉背景下基础模型的数学推理评估
专知会员服务
35+阅读 · 2024年1月20日
CALDERA 一款对手自动模拟工具
黑白之道
20+阅读 · 2019年9月17日
用 LDA 和 LSA 两种方法来降维和做 Topic 建模
AI研习社
13+阅读 · 2018年8月24日
数据分析师应该知道的16种回归技术:Lasso回归
数萃大数据
16+阅读 · 2018年8月13日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【ICLR2025】大型语言模型的动态低秩稀疏适应
专知会员服务
14+阅读 · 2025年2月21日
【ICLR2025】RANDLORA: 全秩参数高效微调大规模模型
专知会员服务
15+阅读 · 2025年2月4日
《面向基础模型的高效参数微调》综述
专知会员服务
33+阅读 · 2025年1月24日
大语言模型的LoRA研究综述
专知会员服务
54+阅读 · 2024年7月17日
【ACL2024】DoRA:通过动态秩分布增强参数高效微调
专知会员服务
21+阅读 · 2024年5月28日
【ICML2024】DoRA:权重分解的低秩适应
专知会员服务
20+阅读 · 2024年5月6日
【ICLR2024】MathVista:视觉背景下基础模型的数学推理评估
专知会员服务
35+阅读 · 2024年1月20日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员