Large language models (LLMs) have achieved remarkable success, but their rapidly growing scale imposes prohibitive costs in memory, computation, and energy. Post-training quantization (PTQ) is a promising solution for efficient deployment, yet achieving accurate W4A4 quantization remains an open challenge. While most existing methods are designed for INT4 formats, the emergence of MXFP4 -- a new FP4 format with various hardware support (NVIDIA, AMD, Intel)-- raises questions about the applicability of current techniques. In this work, we establish a comprehensive benchmark of PTQ methods under the MXFP4 format. Through systematic evaluation, we find that methods like GPTQ consistently deliver strong performance, whereas rotation-based approaches, which are almost used by all state-of-the-art approaches, suffer from severe incompatibility with MXFP4. We further provide the first in-depth analysis of this conflict, tracing its root to a fundamental mismatch between MXFP4's PoT (power-of-two) block scaling and the redistribution of outlier energy via global rotation. Building on this insight, we propose a simple yet effective block rotation strategy that adapts rotation-based methods to MXFP4, leading to substantial accuracy improvements across diverse LLMs. Our findings not only offer clear guidance for practitioners but also set a foundation for advancing PTQ research under emerging low-precision formats.


翻译:大型语言模型(LLMs)已取得显著成功,但其规模的快速增长带来了内存、计算和能耗方面的巨大成本。训练后量化(PTQ)是实现高效部署的一种有前景的解决方案,然而实现精确的W4A4量化仍是一个开放挑战。虽然现有方法大多针对INT4格式设计,但MXFP4——一种具有多种硬件支持(NVIDIA、AMD、Intel)的新型FP4格式——的出现引发了当前技术适用性的疑问。在本研究中,我们建立了MXFP4格式下PTQ方法的全面基准。通过系统评估,我们发现像GPTQ这样的方法始终表现出色,而基于旋转的方法(几乎所有最先进方法均采用)却与MXFP4存在严重不兼容性。我们进一步首次深入分析了这一冲突,将其根源追溯至MXFP4的幂次二(PoT)块缩放与通过全局旋转重新分配异常值能量之间的根本性不匹配。基于这一洞见,我们提出了一种简单而有效的块旋转策略,使基于旋转的方法适应MXFP4,从而在多种LLMs中实现了显著的精度提升。我们的发现不仅为实践者提供了明确指导,也为推进新兴低精度格式下的PTQ研究奠定了基础。

0
下载
关闭预览

相关内容

DeepSeek模型综述:V1 V2 V3 R1-Zero
专知会员服务
116+阅读 · 2025年2月11日
【WWW2024】博弈论式反事实解释图神经网络
专知会员服务
32+阅读 · 2024年2月17日
专知会员服务
30+阅读 · 2020年9月18日
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员