Fast computation of a matrix product $W^\top X$ is a workhorse of modern LLMs. To make their deployment more efficient, a popular approach is that of using a low-precision approximation $\widehat W$ in place of true $W$ (``weight-only quantization''). Information theory demonstrates that an optimal algorithm for reducing precision of $W$ depends on the (second order) statistics of $X$ and requires a careful alignment of vector quantization codebook with PCA directions of $X$ (a process known as ``waterfilling allocation''). Dependence of the codebook on statistics of $X$, however, is highly impractical. This paper proves that there exist a universal codebook that is simultaneously near-optimal for all possible statistics of $X$, in the sense of being at least as good as an $X$-adapted waterfilling codebook with rate reduced by 0.11 bit per dimension in the case when $W$ is Gaussian. Such universal codebook would be an ideal candidate for the low-precision storage format, a topic of active modern research, but alas the existence proof is non-constructive. Equivalently, our result shows existence of a net in $\mathbb{R}^n$ that is a nearly-optimal covering of a sphere simultaneously with respect to all Hilbert norms.


翻译:现代大语言模型的核心计算之一是快速计算矩阵乘积$W^\top X$。为了提升部署效率,一种常见方法是用低精度近似$\widehat W$替代真实的$W$(即“仅权重量化”)。信息论表明,降低$W$精度的最优算法取决于$X$的(二阶)统计特性,且需将向量量化码本与$X$的主成分分析方向仔细对齐(这一过程称为“注水分配”)。然而,码本对$X$统计特性的依赖在实际应用中极为不便。本文证明存在一个普适码本,其在所有可能的$X$统计特性下均能同时达到近似最优性能——具体而言,当$W$服从高斯分布时,该码本至少与基于$X$自适应注水分配的码本性能相当,且每维度码率仅降低0.11比特。这种普适码本是低精度存储格式的理想候选(该方向是现代研究热点),但遗憾的是,存在性证明是非构造性的。等价地,我们的结果表明:在$\mathbb{R}^n$中存在一个网,它相对于所有希尔伯特范数能同时实现对球面的近乎最优覆盖。

0
下载
关闭预览

相关内容

零样本量化:综述
专知会员服务
13+阅读 · 2025年5月15日
多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
专知会员服务
25+阅读 · 2021年7月31日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
超全总结:神经网络加速之量化模型 | 附带代码
干货| PyTorch相比TensorFlow,存在哪些自身优势?
全球人工智能
15+阅读 · 2017年10月4日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
5+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员