Post-training quantization at the 2-bit level enables low-cost deployment and inference acceleration for large language models (LLMs). Scalar quantization (SQ) and vector quantization (VQ) are two primary quantization methods, however, the former suffers from significant performance degradation, and the latter incurs computational and storage overhead. We propose UniSVQ, a unified 2-bit quantization framework that bridges scalar and vector quantization by parameterizing codewords as an affine transform of integer lattices. This structure preserves compatibility with optimized integer kernels while retaining much of VQ's flexibility. We further introduce a data-driven block-wise fine-tuning strategy to directly minimize quantization reconstruction error. Extensive experiments across multiple LLM families and zero-shot benchmarks demonstrate that UniSVQ consistently outperforms state-of-the-art SQ methods and achieves performance comparable to advanced VQ methods, while providing higher inference throughput.


翻译:后训练量化在2比特级别上能够实现大语言模型(LLMs)的低成本部署与推理加速。标量量化(SQ)和向量量化(VQ)是两种主要的量化方法,然而前者存在显著的性能下降,后者则带来计算和存储开销。我们提出UniSVQ,一个统一的2比特量化框架,通过将码字参数化为整数格点的仿射变换,桥接了标量量化与向量量化。该结构在保留VQ大部分灵活性的同时,保持了与优化整数内核的兼容性。我们进一步引入数据驱动的逐块微调策略,以直接最小化量化重构误差。在多个LLM系列和零样本基准上的大量实验表明,UniSVQ持续优于最先进的SQ方法,性能与先进的VQ方法相当,同时提供更高的推理吞吐量。

0
下载
关闭预览

相关内容

用于多模态大模型的离散标记化:全面综述
专知会员服务
19+阅读 · 2025年8月2日
什么是后训练?大语言模型训练后优化方法综述,87页pdf
低比特大语言模型综述:基础、系统与算法
专知会员服务
28+阅读 · 2024年10月6日
大型语言模型对齐技术综述:RLHF、RLAIF、PPO、DPO 等
专知会员服务
55+阅读 · 2024年7月24日
入行量化,你必须知道的几点
深度学习与NLP
12+阅读 · 2019年3月5日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
超全总结:神经网络加速之量化模型 | 附带代码
分别基于SVM和ARIMA模型的股票预测 Python实现 附Github源码
数据挖掘入门与实战
15+阅读 · 2017年9月9日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员