GPTQ-intrinsic LoRA: A Near-optimal Algorithm for Low-precision Quantization with Low-rank Adaptation - 专知论文

会员服务 ·

0

LoRA · MoDELS · 重构误差 · Neural Networks · Networks ·

GPTQ-intrinsic LoRA: A Near-optimal Algorithm for Low-precision Quantization with Low-rank Adaptation

翻译：GPTQ-本征LoRA：一种面向低秩适配的低精度量化近优算法

Shihao Zhang,Rayan Saab

Post-training quantization is widely used for compressing large neural networks, but aggressive low-bit quantization can significantly degrade model quality. A common remedy is to augment the quantized weights with a low-rank correction, leading to approximations of the form $W\approx Q+LR$. In this paper, we study this low-precision plus low-rank representation through the layer-wise reconstruction objective $\|XW-X(Q+LR)\|_F^2$, where $X$ is a calibration matrix. We establish, to our knowledge, the first information-theoretic lower bounds for this problem under finite-alphabet and bounded low-rank compensation constraints. We then propose GPTQ-intrinsic LoRA, a training-free algorithm that incorporates the low-rank correction directly into a GPTQ-style quantization pass by appropriately augmenting the calibration Hessian. For the choice $L=V_r$, where $V_r$ contains the top right singular vectors of $X$, we prove layer-wise reconstruction error bounds in which the usual GPTQ dependence on $\|X\|_F^2$ is replaced by the rank-$r$ residual $\|X-X_r\|_F^2$, up to regularization terms. Under natural structural assumptions, these bounds match the information-theoretic lower bounds in their dominant scaling, up to constants and mild factors. We also introduce Bid-Up, a fixed-grid quantization refinement step that can be alternated with optimal low-rank compensation with guaranteed non-increasing layer-wise reconstruction error. Experiments on Qwen3 language models and DeiT vision transformers show that GPTQ-intrinsic LoRA improves over GPTQ and GPTQ followed by low-rank compensation, with additional gains from refinement loops.

翻译：后训练量化被广泛用于压缩大型神经网络，但激进的低位量化会显著降低模型质量。常见补救措施是将量化权重与低秩修正项结合，得到形如$W\approx Q+LR$的近似表示。本文通过逐层重建目标$\|XW-X(Q+LR)\|_F^2$（其中$X$为校准矩阵）研究这种低精度加低秩表示方法。我们首次在有限字母表和有界低秩补偿约束下，建立了该问题的信息论下界。随后提出GPTQ-本征LoRA——一种免训练算法，通过适当增广校准Hessian矩阵，在GPTQ式量化过程中直接融入低秩修正。针对$L=V_r$（$V_r$包含$X$的顶部右奇异向量）的选取，我们证明逐层重建误差界中，GPTQ通常依赖的$\|X\|_F^2$项被秩$r$残差$\|X-X_r\|_F^2$所替代（正则项不计）。在自然结构假设下，这些误差界的主导尺度（除常数和温和因子外）与信息论下界相匹配。我们还引入Bid-Up——一种固定网格量化细化步骤，可与最优低秩补偿交替执行，保证逐层重建误差非增。在Qwen3语言模型和DeiT视觉Transformer上的实验表明，GPTQ-本征LoRA优于GPTQ及GPTQ后续低秩补偿方法，且通过细化循环可进一步获得性能提升。

0

相关内容

LoRA

零样本量化：综述

零样本量化：综述

专知会员服务

13+阅读 · 2025年5月15日

LoRA进展有哪些？最新《基础模型的低秩适应》综述

LoRA进展有哪些？最新《基础模型的低秩适应》综述

专知会员服务

37+阅读 · 2025年1月3日

【普林斯顿博士论文】深度学习优化的隐性偏差：数学考察，391页pdf

【普林斯顿博士论文】深度学习优化的隐性偏差：数学考察，391页pdf

专知会员服务

29+阅读 · 2024年10月4日

SORA底层模型用好了也能赚钱！DiffsFormer：基于扩散模型的股票因子生成

SORA底层模型用好了也能赚钱！DiffsFormer：基于扩散模型的股票因子生成

专知会员服务

37+阅读 · 2024年2月29日

【WWW2024】LARA:一种轻量级、抗过拟合的无监督异常检测再训练方法

【WWW2024】LARA:一种轻量级、抗过拟合的无监督异常检测再训练方法

专知会员服务

26+阅读 · 2024年1月31日

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

专知会员服务

61+阅读 · 2023年7月16日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

专知会员服务

33+阅读 · 2022年3月4日

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

专知会员服务

55+阅读 · 2021年11月19日

【Nature论文】深度网络中的梯度下降复杂度控制

【Nature论文】深度网络中的梯度下降复杂度控制

专知会员服务

41+阅读 · 2020年3月9日

【深度度量学习系列】Triplet-loss原理与应用

【深度度量学习系列】Triplet-loss原理与应用

AINLP

61+阅读 · 2020年10月7日

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

专知

58+阅读 · 2020年7月2日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

2018年深度学习优化算法最新综述

2018年深度学习优化算法最新综述

计算机视觉战队

10+阅读 · 2018年12月11日

每日论文 | 图形深度神经网络并行框架NGra；用人类注意力进行序列分类；针对多智能体协作的图卷积强化学习

每日论文 | 图形深度神经网络并行框架NGra；用人类注意力进行序列分类；针对多智能体协作的图卷积强化学习

论智

26+阅读 · 2018年10月30日

手动特征工程已经OUT了！自动特征工程才是改进机器学习的方式

手动特征工程已经OUT了！自动特征工程才是改进机器学习的方式

AI100

11+阅读 · 2018年9月4日

【人工智能】神经网络常用优化算法概览、一文了解迁移学习经典算法

【人工智能】神经网络常用优化算法概览、一文了解迁移学习经典算法

产业智能官

13+阅读 · 2018年8月18日

入门 | 深度学习模型的简单优化技巧

入门 | 深度学习模型的简单优化技巧

机器之心

10+阅读 · 2018年6月10日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

面向特征提取的低秩与稀疏图嵌入理论与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于张量结构和lq范数的低秩张量恢复和补全

国家自然科学基金

1+阅读 · 2015年12月31日

低秩张量补全问题的算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

压缩感知中正交匹配追踪算法的理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

广义低秩矩阵重构算法及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

稀疏表达下社会化正则方法与低秩分解推荐模型的研究

国家自然科学基金

1+阅读 · 2015年12月31日

非凸稀疏优化的恢复条件与低复杂度算法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于自适应交叉近似的低秩分解算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

压缩感知和稀疏优化中的非凸优化算法设计

国家自然科学基金

2+阅读 · 2014年12月31日

SDS-LoRA: Overcoming Anisotropic Gradient Scaling in Low-Rank Adaptation

Arxiv

0+阅读 · 6月15日

QuantKAN: A Unified Quantization Framework for Kolmogorov Arnold Networks

Arxiv

0+阅读 · 6月15日

RaBiT: Residual-Aware Binarization Training for Accurate and Efficient LLMs

Arxiv

0+阅读 · 6月14日

NanoQuant: Efficient Sub-1-Bit Quantization of Large Language Models

Arxiv

0+阅读 · 6月14日

Quantized Evolution Strategies: High-precision Fine-tuning of Quantized LLMs at Low-precision Cost

Arxiv

0+阅读 · 6月12日

UniSVQ: 2-bit Unified Scalar-Vector Quantization

Arxiv

0+阅读 · 6月9日

Understanding Quantization-Aware Training: Gradients at Quantized Weights Bias to the Low-Loss Basin

Arxiv

1+阅读 · 6月8日

TARQ: Tail-Aware Reconstruction Quantization for Rare-Word Robust Automatic Speech Recognition

Arxiv

0+阅读 · 5月27日

Gradient-Free Training of Spiking Neural Networks via Low-Rank Evolution Strategies

Arxiv

0+阅读 · 5月14日

The Geometry of LLM Quantization: GPTQ as Babai's Nearest Plane Algorithm

Arxiv

0+阅读 · 5月13日

VIP会员

文章信息

相关主题

Neural Networks

最新内容

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

专知会员服务

2+阅读 · 今天7:13

俄乌无人机战争的六大启示

俄乌无人机战争的六大启示

专知会员服务

4+阅读 · 今天7:07

《无人机空中监控：通信实验洞察》

《无人机空中监控：通信实验洞察》

专知会员服务

3+阅读 · 今天7:05

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

专知会员服务

3+阅读 · 今天6:59

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

12+阅读 · 8月2日

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

5+阅读 · 8月2日

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

10+阅读 · 8月2日

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

12+阅读 · 8月2日

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

6+阅读 · 8月2日

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

10+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

8+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

9+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

8+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

6+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

13+阅读 · 7月31日

相关VIP内容

零样本量化：综述

零样本量化：综述

专知会员服务

13+阅读 · 2025年5月15日

LoRA进展有哪些？最新《基础模型的低秩适应》综述

LoRA进展有哪些？最新《基础模型的低秩适应》综述

专知会员服务

37+阅读 · 2025年1月3日

【普林斯顿博士论文】深度学习优化的隐性偏差：数学考察，391页pdf

【普林斯顿博士论文】深度学习优化的隐性偏差：数学考察，391页pdf

专知会员服务

29+阅读 · 2024年10月4日

SORA底层模型用好了也能赚钱！DiffsFormer：基于扩散模型的股票因子生成

SORA底层模型用好了也能赚钱！DiffsFormer：基于扩散模型的股票因子生成

专知会员服务

37+阅读 · 2024年2月29日

【WWW2024】LARA:一种轻量级、抗过拟合的无监督异常检测再训练方法

【WWW2024】LARA:一种轻量级、抗过拟合的无监督异常检测再训练方法

专知会员服务

26+阅读 · 2024年1月31日

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

专知会员服务

61+阅读 · 2023年7月16日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

专知会员服务

33+阅读 · 2022年3月4日

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

专知会员服务

55+阅读 · 2021年11月19日

【Nature论文】深度网络中的梯度下降复杂度控制

【Nature论文】深度网络中的梯度下降复杂度控制

专知会员服务

41+阅读 · 2020年3月9日

热门VIP内容

开通专知VIP会员享更多权益服务

俄乌无人机战争的六大启示

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《无人机空中监控：通信实验洞察》

相关资讯

【深度度量学习系列】Triplet-loss原理与应用

【深度度量学习系列】Triplet-loss原理与应用

AINLP

61+阅读 · 2020年10月7日

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

专知

58+阅读 · 2020年7月2日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

2018年深度学习优化算法最新综述

2018年深度学习优化算法最新综述

计算机视觉战队

10+阅读 · 2018年12月11日

每日论文 | 图形深度神经网络并行框架NGra；用人类注意力进行序列分类；针对多智能体协作的图卷积强化学习

每日论文 | 图形深度神经网络并行框架NGra；用人类注意力进行序列分类；针对多智能体协作的图卷积强化学习

论智

26+阅读 · 2018年10月30日

手动特征工程已经OUT了！自动特征工程才是改进机器学习的方式

手动特征工程已经OUT了！自动特征工程才是改进机器学习的方式

AI100

11+阅读 · 2018年9月4日

【人工智能】神经网络常用优化算法概览、一文了解迁移学习经典算法

【人工智能】神经网络常用优化算法概览、一文了解迁移学习经典算法

产业智能官

13+阅读 · 2018年8月18日

入门 | 深度学习模型的简单优化技巧

入门 | 深度学习模型的简单优化技巧

机器之心

10+阅读 · 2018年6月10日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

相关论文

SDS-LoRA: Overcoming Anisotropic Gradient Scaling in Low-Rank Adaptation

Arxiv

0+阅读 · 6月15日

QuantKAN: A Unified Quantization Framework for Kolmogorov Arnold Networks

Arxiv

0+阅读 · 6月15日

RaBiT: Residual-Aware Binarization Training for Accurate and Efficient LLMs

Arxiv

0+阅读 · 6月14日

NanoQuant: Efficient Sub-1-Bit Quantization of Large Language Models

Arxiv

0+阅读 · 6月14日

Quantized Evolution Strategies: High-precision Fine-tuning of Quantized LLMs at Low-precision Cost

Arxiv

0+阅读 · 6月12日

UniSVQ: 2-bit Unified Scalar-Vector Quantization

Arxiv

0+阅读 · 6月9日

Understanding Quantization-Aware Training: Gradients at Quantized Weights Bias to the Low-Loss Basin

Arxiv

1+阅读 · 6月8日

TARQ: Tail-Aware Reconstruction Quantization for Rare-Word Robust Automatic Speech Recognition

Arxiv

0+阅读 · 5月27日

Gradient-Free Training of Spiking Neural Networks via Low-Rank Evolution Strategies

Arxiv

0+阅读 · 5月14日

The Geometry of LLM Quantization: GPTQ as Babai's Nearest Plane Algorithm

Arxiv

0+阅读 · 5月13日

相关基金

面向特征提取的低秩与稀疏图嵌入理论与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于张量结构和lq范数的低秩张量恢复和补全

国家自然科学基金

1+阅读 · 2015年12月31日

低秩张量补全问题的算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

压缩感知中正交匹配追踪算法的理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

广义低秩矩阵重构算法及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

稀疏表达下社会化正则方法与低秩分解推荐模型的研究

国家自然科学基金

1+阅读 · 2015年12月31日

非凸稀疏优化的恢复条件与低复杂度算法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于自适应交叉近似的低秩分解算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

压缩感知和稀疏优化中的非凸优化算法设计

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员