Large language models (LLMs) deliver robust performance across diverse applications, yet their deployment often faces challenges due to the memory and latency costs of storing and accessing billions of parameters. Post-training quantization (PTQ) enables efficient inference by mapping pretrained weights to low-bit formats without retraining, but its effectiveness depends critically on both the quantization objective and the rounding procedure used to obtain low-bit weight representations. In this work, we show that interpolating between symmetric and asymmetric calibration acts as a form of regularization that preserves the standard quadratic structure used in PTQ while providing robustness to activation mismatch. Building on this perspective, we derive a simple successive rounding procedure that naturally incorporates asymmetric calibration, as well as a bounded-search extension that allows for an explicit trade-off between quantization quality and the compute cost. Experiments across multiple LLM families, quantization bit-widths, and benchmarks demonstrate that the proposed bounded search based on a regularized asymmetric calibration objective consistently improves perplexity and accuracy over PTQ baselines, while incurring only modest and controllable additional computational cost.


翻译:大型语言模型(LLM)在各种应用中展现出强大的性能,但其部署常因存储和访问数十亿参数所需的内存与延迟成本而面临挑战。后训练量化(PTQ)通过将预训练权重映射到低比特格式而无需重新训练,从而实现高效推理,但其效果关键取决于量化目标以及用于获得低比特权重表示的舍入过程。本研究表明,在对称与非对称校准之间进行插值可作为一种正则化形式,既能保留PTQ中使用的标准二次结构,又能对激活失配保持鲁棒性。基于这一视角,我们推导出一种简单的逐次舍入过程,该过程自然地融入了非对称校准,并进一步提出一种有界搜索扩展方法,允许在量化质量与计算成本之间进行显式权衡。在多种LLM系列、量化比特宽度和基准测试上的实验表明,基于正则化非对称校准目标的有界搜索方法,相较于PTQ基线模型,能够持续提升困惑度与准确率,同时仅产生适度且可控的额外计算成本。

0
下载
关闭预览

相关内容

在数学,统计学和计算机科学中,尤其是在机器学习和逆问题中,正则化是添加信息以解决不适定问题或防止过度拟合的过程。 正则化适用于不适定的优化问题中的目标函数。
深度学习中泛化的量化、理解与改进
专知会员服务
17+阅读 · 2025年9月13日
什么是后训练?大语言模型训练后优化方法综述,87页pdf
LLM后训练:深入探讨推理大语言模型
专知会员服务
40+阅读 · 2025年3月3日
【博士论文】朝向大规模语言模型的原则性训练与服务
专知会员服务
10+阅读 · 2025年2月10日
大型语言模型增强强化学习综述:概念、分类和方法
专知会员服务
57+阅读 · 2024年4月4日
多模态预训练模型综述
专知会员服务
94+阅读 · 2023年11月20日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
超全总结:神经网络加速之量化模型 | 附带代码
深度学习中的五大正则化方法和七大优化策略
全球人工智能
11+阅读 · 2017年12月25日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员