Low-rank decomposition, particularly Singular Value Decomposition (SVD), is a pivotal technique for mitigating the storage and computational demands of Large Language Models (LLMs). However, prevalent SVD-based approaches overlook the critical phenomenon that decomposition errors exhibit significant disparity across different components of the parameter matrix, often leading to suboptimal approximation. Furthermore, existing methods lack a direct metric to evaluate the importance of individual weight matrices. To address these limitations, we propose Duo-SVD (Dual-level Optimization SVD), a novel training-free framework that synergizes optimization at both the column and the module levels. First, Duo-SVD incorporates a Column-Preserving Strategy that explicitly retains columns exhibiting high decomposition errors, while applying low-rank approximation solely to those with lower errors. Second, at the module level, we employ a Module-Adaptive Allocation Strategy that formulates ratio allocation as a global constrained optimization problem based on perturbation-induced model deviation. Extensive experiments demonstrate that Duo-SVD consistently outperforms state-of-the-art SVD-based baselines and structured pruning methods, establishing it as a superior paradigm for efficient LLM compression.


翻译:低秩分解,特别是奇异值分解(SVD),是缓解大语言模型存储与计算需求的关键技术。然而,当前主流的基于SVD的方法忽略了一个关键现象:参数矩阵不同组成部分的分解误差存在显著差异,这常常导致次优的近似效果。此外,现有方法缺乏直接评估单个权重矩阵重要性的度量指标。为应对这些局限,我们提出了Duo-SVD(双重优化SVD),一种新颖的无训练框架,该框架协同优化了列级与模块级两个层面。首先,Duo-SVD引入了一种列保留策略,该策略显式地保留那些表现出高分解误差的列,而仅对误差较低的列应用低秩近似。其次,在模块层面,我们采用了一种模块自适应分配策略,该策略基于扰动引起的模型偏差,将比率分配问题构建为一个全局约束优化问题。大量实验表明,Duo-SVD在性能上持续优于最先进的基于SVD的基线方法及结构化剪枝方法,确立了其作为高效LLM压缩的优越范式。

0
下载
关闭预览

相关内容

奇异值分解(Singular Value Decomposition)是线性代数中一种重要的矩阵分解,奇异值分解则是特征分解在任意矩阵上的推广。在信号处理、统计学等领域有重要应用。
TransMLA:多头潜在注意力(MLA)即为所需
专知会员服务
23+阅读 · 2025年2月13日
《Transformer压缩》综述
专知会员服务
49+阅读 · 2024年2月14日
专知会员服务
23+阅读 · 2021年4月10日
【学界】DeepMind论文:深度压缩感知,新框架提升GAN性能
GAN生成式对抗网络
14+阅读 · 2019年5月23日
Deep Compression/Acceleration:模型压缩加速论文汇总
极市平台
14+阅读 · 2019年5月15日
简述多种降维算法
算法与数学之美
11+阅读 · 2018年9月23日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
VIP会员
相关VIP内容
TransMLA:多头潜在注意力(MLA)即为所需
专知会员服务
23+阅读 · 2025年2月13日
《Transformer压缩》综述
专知会员服务
49+阅读 · 2024年2月14日
专知会员服务
23+阅读 · 2021年4月10日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员