On the Importance of a Multi-Scale Calibration for Quantization - 专知论文

会员服务 ·

0

多尺度 · 序列 · 大语言模型 · 捕获 · 构建 ·

On the Importance of a Multi-Scale Calibration for Quantization

翻译：多尺度校准在量化中的重要性研究

Seungwoo Son,Ingyu Seong,Junhan Kim,Hyemi Jang,Yongkweon Jeon

from arxiv, ICASSP 2026

Post-training quantization (PTQ) is a cornerstone for efficiently deploying large language models (LLMs), where a small calibration set critically affects quantization performance. However, conventional practices rely on random sequences of fixed length, overlooking the variable-length nature of LLM inputs. Input length directly influences the activation distribution and, consequently, the weight importance captured by the Hessian, which in turn affects quantization outcomes. As a result, Hessian estimates derived from fixed-length calibration may fail to represent the true importance of weights across diverse input scenarios. We propose MaCa (Matryoshka Calibration), a simple yet effective method for length-aware Hessian construction. MaCa (i) incorporates multi-scale sequence length information into Hessian estimation and (ii) regularizes each sequence as an independent sample, yielding a more stable and fruitful Hessian for accurate quantization. Experiments on state-of-the-art LLMs (e.g., Qwen3, Gemma3, LLaMA3) demonstrate that MaCa consistently improves accuracy under low bit quantization, offering a lightweight enhancement compatible with existing PTQ frameworks. To the best of our knowledge, this is the first work to systematically highlight the role of multi-scale calibration in LLM quantization.

翻译：训练后量化（PTQ）是高效部署大语言模型（LLM）的基石，其中小型校准集对量化性能具有关键影响。然而，传统方法依赖固定长度的随机序列，忽略了LLM输入的可变长度特性。输入长度直接影响激活分布，进而影响海森矩阵所捕获的权重重要性，最终改变量化结果。因此，基于固定长度校准得到的海森矩阵估计可能无法代表不同输入场景下权重的真实重要性。我们提出MaCa（套娃校准），一种简单有效的长度感知海森矩阵构建方法。MaCa（i）将多尺度序列长度信息融入海森矩阵估计，（ii）将每个序列作为独立样本进行正则化，从而产生更稳定、更有效的海森矩阵以实现精确量化。在先进LLM（如Qwen3、Gemma3、LLaMA3）上的实验表明，MaCa在低比特量化下持续提升精度，提供了一种与现有PTQ框架兼容的轻量级增强方案。据我们所知，这是首个系统性地强调多尺度校准在LLM量化中作用的研究。

0

相关内容

多尺度

大语言模型后训练技术：离策与在策学习的统一视角

大语言模型后训练技术：离策与在策学习的统一视角

专知会员服务

15+阅读 · 4月10日

深度学习中泛化的量化、理解与改进

深度学习中泛化的量化、理解与改进

专知会员服务

17+阅读 · 2025年9月13日

【CMU博士论文】校准不确定性量化的方法及其效用解析

【CMU博士论文】校准不确定性量化的方法及其效用解析

专知会员服务

22+阅读 · 2025年9月1日

用于多模态大模型的离散标记化：全面综述

用于多模态大模型的离散标记化：全面综述

专知会员服务

19+阅读 · 2025年8月2日

什么是后训练？大语言模型训练后优化方法综述，87页pdf

什么是后训练？大语言模型训练后优化方法综述，87页pdf

专知会员服务

54+阅读 · 2025年3月11日

数据与多模态大型语言模型的协同作用综述

数据与多模态大型语言模型的协同作用综述

专知会员服务

59+阅读 · 2024年7月13日

大模型如何利用数据？北大华为等最新《大型语言模型的数据管理》综述

大模型如何利用数据？北大华为等最新《大型语言模型的数据管理》综述

专知会员服务

99+阅读 · 2023年12月6日

多模态预训练模型综述

多模态预训练模型综述

专知会员服务

94+阅读 · 2023年11月20日

清华49页长文全方位分析参数高效微调方案Delta Tuning，揭秘大模型背后的机理

清华49页长文全方位分析参数高效微调方案Delta Tuning，揭秘大模型背后的机理

专知会员服务

50+阅读 · 2022年4月8日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

入行量化，你必须知道的几点

入行量化，你必须知道的几点

深度学习与NLP

12+阅读 · 2019年3月5日

超全总结：神经网络加速之量化模型 | 附带代码

超全总结：神经网络加速之量化模型 | 附带代码

PaperWeekly

12+阅读 · 2018年6月1日

【论文推荐】最新十篇度量学习相关论文—可量化表示、非线性度量学习、在线深度量学习、大间隔最近邻、判别深度度量、域自适应

【论文推荐】最新十篇度量学习相关论文—可量化表示、非线性度量学习、在线深度量学习、大间隔最近邻、判别深度度量、域自适应

专知

12+阅读 · 2018年5月18日

【论文推荐】最新五篇度量学习相关论文—无标签、三维姿态估计、主动度量学习、深度度量学习、层次度量学习与匹配

【论文推荐】最新五篇度量学习相关论文—无标签、三维姿态估计、主动度量学习、深度度量学习、层次度量学习与匹配

专知

20+阅读 · 2018年4月5日

【论文推荐】最新5篇度量学习（Metric Learning）相关论文—人脸验证、BIER、自适应图卷积、注意力机制、单次学习

【论文推荐】最新5篇度量学习（Metric Learning）相关论文—人脸验证、BIER、自适应图卷积、注意力机制、单次学习

专知

17+阅读 · 2018年2月11日

量子相干性的度量及其在量子信息处理中的应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

张量分析及其在高维信息处理中的应用

国家自然科学基金

4+阅读 · 2015年12月31日

基于紧支径向基函数的支持向量机多尺度反演算法及其应用

国家自然科学基金

1+阅读 · 2015年12月31日

多输入-多输出网络量化系统的分析与综合研究

国家自然科学基金

0+阅读 · 2015年12月31日

高维多体量子态量子关联的度量及其在量子随机行走中变化的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于扩展的概率转移矩阵模型的高精度快速广义门电路可靠性评估方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

测量误差数据下约束线性模型的有偏估计及变量选择研究

国家自然科学基金

0+阅读 · 2014年12月31日

广义线性模型的组变量选择及其在信用评分中的应用

国家自然科学基金

2+阅读 · 2014年12月31日

多元数据与函数型数据的序贯检验方法与控制图研究

国家自然科学基金

0+阅读 · 2014年12月31日

多项式优化的最优性条件与最优化算法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

SERQ: Saliency-Aware Low-Rank Error Reconstruction for LLM Quantization

Arxiv

0+阅读 · 3月9日

Dissecting Quantization Error: A Concentration-Alignment Perspective

Arxiv

0+阅读 · 3月4日

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference

Arxiv

0+阅读 · 2月14日

Quantization-Robust LLM Unlearning via Low-Rank Adaptation

Arxiv

0+阅读 · 2月13日

QuEPT: Quantized Elastic Precision Transformers with One-Shot Calibration for Multi-Bit Switching

Arxiv

0+阅读 · 2月13日

Learning under Quantization for High-Dimensional Linear Regression

Arxiv

0+阅读 · 2月11日

You Had One Job: Per-Task Quantization Using LLMs' Hidden Representations

Arxiv

0+阅读 · 2月6日

D$^2$Quant: Accurate Low-bit Post-Training Weight Quantization for LLMs

Arxiv

0+阅读 · 2月6日

Regularized Calibration with Successive Rounding for Post-Training Quantization

Arxiv

0+阅读 · 2月5日

NeUQI: Near-Optimal Uniform Quantization Parameter Initialization for Low-Bit LLMs

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

大语言模型

最新内容

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

8+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

6+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

8+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

5+阅读 · 7月18日

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

8+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

8+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

4+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

2+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

6+阅读 · 7月17日

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

4+阅读 · 7月17日

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

5+阅读 · 7月17日

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

专知会员服务

13+阅读 · 7月16日

《无人地面战车（UGV）的崛起》报告

《无人地面战车（UGV）的崛起》报告

专知会员服务

8+阅读 · 7月16日

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

专知会员服务

7+阅读 · 7月16日

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

专知会员服务

15+阅读 · 7月16日

相关VIP内容

大语言模型后训练技术：离策与在策学习的统一视角

大语言模型后训练技术：离策与在策学习的统一视角

专知会员服务

15+阅读 · 4月10日

深度学习中泛化的量化、理解与改进

深度学习中泛化的量化、理解与改进

专知会员服务

17+阅读 · 2025年9月13日

【CMU博士论文】校准不确定性量化的方法及其效用解析

【CMU博士论文】校准不确定性量化的方法及其效用解析

专知会员服务

22+阅读 · 2025年9月1日

用于多模态大模型的离散标记化：全面综述

用于多模态大模型的离散标记化：全面综述

专知会员服务

19+阅读 · 2025年8月2日

什么是后训练？大语言模型训练后优化方法综述，87页pdf

什么是后训练？大语言模型训练后优化方法综述，87页pdf

专知会员服务

54+阅读 · 2025年3月11日

数据与多模态大型语言模型的协同作用综述

数据与多模态大型语言模型的协同作用综述

专知会员服务

59+阅读 · 2024年7月13日

大模型如何利用数据？北大华为等最新《大型语言模型的数据管理》综述

大模型如何利用数据？北大华为等最新《大型语言模型的数据管理》综述

专知会员服务

99+阅读 · 2023年12月6日

多模态预训练模型综述

多模态预训练模型综述

专知会员服务

94+阅读 · 2023年11月20日

清华49页长文全方位分析参数高效微调方案Delta Tuning，揭秘大模型背后的机理

清华49页长文全方位分析参数高效微调方案Delta Tuning，揭秘大模型背后的机理

专知会员服务

50+阅读 · 2022年4月8日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

热门VIP内容

开通专知VIP会员享更多权益服务

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

入行量化，你必须知道的几点

入行量化，你必须知道的几点

深度学习与NLP

12+阅读 · 2019年3月5日

超全总结：神经网络加速之量化模型 | 附带代码

超全总结：神经网络加速之量化模型 | 附带代码

PaperWeekly

12+阅读 · 2018年6月1日

【论文推荐】最新十篇度量学习相关论文—可量化表示、非线性度量学习、在线深度量学习、大间隔最近邻、判别深度度量、域自适应

【论文推荐】最新十篇度量学习相关论文—可量化表示、非线性度量学习、在线深度量学习、大间隔最近邻、判别深度度量、域自适应

专知

12+阅读 · 2018年5月18日

【论文推荐】最新五篇度量学习相关论文—无标签、三维姿态估计、主动度量学习、深度度量学习、层次度量学习与匹配

【论文推荐】最新五篇度量学习相关论文—无标签、三维姿态估计、主动度量学习、深度度量学习、层次度量学习与匹配

专知

20+阅读 · 2018年4月5日

【论文推荐】最新5篇度量学习（Metric Learning）相关论文—人脸验证、BIER、自适应图卷积、注意力机制、单次学习

【论文推荐】最新5篇度量学习（Metric Learning）相关论文—人脸验证、BIER、自适应图卷积、注意力机制、单次学习

专知

17+阅读 · 2018年2月11日

相关论文

SERQ: Saliency-Aware Low-Rank Error Reconstruction for LLM Quantization

Arxiv

0+阅读 · 3月9日

Dissecting Quantization Error: A Concentration-Alignment Perspective

Arxiv

0+阅读 · 3月4日

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference

Arxiv

0+阅读 · 2月14日

Quantization-Robust LLM Unlearning via Low-Rank Adaptation

Arxiv

0+阅读 · 2月13日

QuEPT: Quantized Elastic Precision Transformers with One-Shot Calibration for Multi-Bit Switching

Arxiv

0+阅读 · 2月13日

Learning under Quantization for High-Dimensional Linear Regression

Arxiv

0+阅读 · 2月11日

You Had One Job: Per-Task Quantization Using LLMs' Hidden Representations

Arxiv

0+阅读 · 2月6日

D$^2$Quant: Accurate Low-bit Post-Training Weight Quantization for LLMs

Arxiv

0+阅读 · 2月6日

Regularized Calibration with Successive Rounding for Post-Training Quantization

Arxiv

0+阅读 · 2月5日

NeUQI: Near-Optimal Uniform Quantization Parameter Initialization for Low-Bit LLMs

Arxiv

0+阅读 · 1月30日

相关基金

量子相干性的度量及其在量子信息处理中的应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

张量分析及其在高维信息处理中的应用

国家自然科学基金

4+阅读 · 2015年12月31日

基于紧支径向基函数的支持向量机多尺度反演算法及其应用

国家自然科学基金

1+阅读 · 2015年12月31日

多输入-多输出网络量化系统的分析与综合研究

国家自然科学基金

0+阅读 · 2015年12月31日

高维多体量子态量子关联的度量及其在量子随机行走中变化的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于扩展的概率转移矩阵模型的高精度快速广义门电路可靠性评估方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

测量误差数据下约束线性模型的有偏估计及变量选择研究

国家自然科学基金

0+阅读 · 2014年12月31日

广义线性模型的组变量选择及其在信用评分中的应用

国家自然科学基金

2+阅读 · 2014年12月31日

多元数据与函数型数据的序贯检验方法与控制图研究

国家自然科学基金

0+阅读 · 2014年12月31日

多项式优化的最优性条件与最优化算法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员