Microscaling Floating-Point (MXFP) has emerged as a promising low-precision format for large language models (LLMs). Despite various post-training quantization (PTQ) algorithms being proposed, they mostly focus on integer quantization, while their applicability and behavior under MXFP formats remain largely unexplored. To address this gap, this work conducts a systematic investigation of PTQ under MXFP formats, encompassing over 7 PTQ algorithms, 15 evaluation benchmarks, and 3 LLM families. The key findings include: 1) MXFP8 consistently achieves near-lossless performance, while MXFP4 introduces substantial accuracy degradation and remains challenging; 2) PTQ effectiveness under MXFP depends strongly on format compatibility, with some algorithmic paradigms being consistently more effective than others; 3) PTQ performance exhibits highly consistent trends across model families and modalities, in particular, quantization sensitivity is dominated by the language model rather than the vision encoder in multimodal LLMs; 4) The scaling factor of quantization is a critical error source in MXFP4, and a simple pre-scale optimization strategy can significantly mitigate its impact. Together, these results provide practical guidance on adapting existing PTQ methods to MXFP quantization.


翻译:微缩浮点(MXFP)已成为大语言模型(LLMs)中一种有前景的低精度格式。尽管已提出多种训练后量化(PTQ)算法,但它们主要集中于整数量化,而在MXFP格式下的适用性和行为仍很大程度上未被探索。为填补这一空白,本研究对MXFP格式下的PTQ进行了系统性调查,涵盖超过7种PTQ算法、15个评估基准和3个LLM系列。主要发现包括:1)MXFP8始终能实现近乎无损的性能,而MXFP4则带来显著的精度损失且仍具挑战性;2)MXFP下的PTQ效果高度依赖于格式兼容性,某些算法范式始终比其他方法更有效;3)PTQ性能在不同模型系列和模态间表现出高度一致的趋势,特别是,在多模态LLMs中,量化敏感性主要由语言模型而非视觉编码器主导;4)量化缩放因子是MXFP4中的关键误差源,而一种简单的预缩放优化策略能显著减轻其影响。这些结果共同为将现有PTQ方法适配至MXFP量化提供了实用指导。

0
下载
关闭预览

相关内容

从数据中心视角出发的高效大语言模型训练综述
专知会员服务
23+阅读 · 2025年10月31日
什么是后训练?大语言模型训练后优化方法综述,87页pdf
超全总结:神经网络加速之量化模型 | 附带代码
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
从数据中心视角出发的高效大语言模型训练综述
专知会员服务
23+阅读 · 2025年10月31日
什么是后训练?大语言模型训练后优化方法综述,87页pdf
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员