W4A4 quantization promises full utilization of INT4 Tensor Cores, yet group dequantization overhead on CUDA Cores has driven existing systems to mixed-precision fallbacks. We present the first systematic study of how intra-SM compute balance governs this bottleneck. Through controlled benchmarks across four GPUs from Ampere and Ada architectures, we identify the Tensor Cores to CUDA Cores throughput ratio ($ρ$) as the primary hardware indicator: the W4A4-g128 kernel yields $2.0$--$2.5\times$ speedup on RTX~3090 ($ρ=16$) yet degrades to $0.43$--$0.47\times$ on A100 ($ρ=64$) in compute-bond scenarios, establishing W4A4 viability as platform-dependent rather than universally infeasible. Guided by this finding, we build \textbf{APEX4}, which co-designs pure INT4 GEMM kernels with $ρ$-aware granularity adaptation to mitigate the CUDA Cores dequantization bottleneck. APEX4 achieves perplexity within 0.63 of FP16 on LLaMA-2-70B and outperforms W4Ax Atom-g128 by 4.0\%--4.4\% in zero-shot accuracy. Deployed as a drop-in replacement in unmodified vLLM, it delivers up to $1.66\times$ end-to-end speedup on L40S ($ρ=8$), and $1.78\times$ on RTX~3090 ($ρ=16$), $2.09\times$ on A40 ($ρ=16$), while recovering A100 ($ρ=64$) to $1.20$--$1.40\times$ via the mixed-granularity mode.


翻译:W4A4量化承诺完全利用INT4张量核心,但CUDA核心上的组反量化开销已迫使现有系统采用混合精度降级方案。我们首次系统研究了SM内计算平衡如何主导这一瓶颈。通过跨Ampere和Ada架构的四款GPU进行受控基准测试,我们识别出张量核心与CUDA核心的吞吐率比(ρ)是主要硬件指标:在计算受限场景中,W4A4-g128内核在RTX 3090(ρ=16)上可实现2.0–2.5倍加速,但在A100(ρ=64)上降至0.43–0.47倍,这确立了W4A4可行性取决于平台而非普遍不可行的结论。基于此发现,我们构建了APEX4,通过协同设计纯INT4通用矩阵乘法内核与感知ρ的粒度自适应机制,以缓解CUDA核心反量化瓶颈。APEX4在LLaMA-2-70B上实现了与FP16相差0.63的困惑度,在零样本准确率上比W4Ax Atom-g128高出4.0%–4.4%。作为即插即用组件部署于未经修改的vLLM时,它在L40S(ρ=8)上实现高达1.66倍的端到端加速,在RTX 3090(ρ=16)上实现1.78倍加速,在A40(ρ=16)上实现2.09倍加速,并通过混合粒度模式将A100(ρ=64)的性能恢复至1.20–1.40倍。

0
下载
关闭预览

相关内容

Phi-4:微软最新的小型语言模型,专注于复杂推理
专知会员服务
25+阅读 · 2024年12月14日
Deeplearning4j 快速入门
人工智能头条
14+阅读 · 2018年12月24日
【pix4D篇】——Pix4D软件介绍
无人机
18+阅读 · 2018年8月1日
Deeplearning4j的介绍与实例分享 | 公开课
AI研习社
14+阅读 · 2017年11月27日
推荐|caffe-orc主流ocr算法:CNN+BLSTM+CTC架构实现!
全球人工智能
19+阅读 · 2017年10月29日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
1+阅读 · 今天14:45
定向能反无人机系统最新发展动态
专知会员服务
5+阅读 · 今天13:50
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 今天13:33
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员