Mixture-of-Experts (MoE) models have become the dominant architecture for large-scale language models, yet on-premises serving remains fundamentally memory-bound as batching turns sparse per-token compute into dense memory activation. Memory-centric architectures (PIM, NMP) improve bandwidth but leave compute underutilized under MoE's low arithmetic intensity at high batch sizes. Speculative decoding (SD) trades idle compute for fewer target invocations, yet verification must load experts even for rejected tokens, severely limiting its benefit in MoE especially at low batch sizes. We propose ELMoE-3D, a hybrid-bonding (HB)-based HW-SW co-designed framework that unifies cache-based acceleration and speculative decoding to offer overall speedup across batch sizes. We identify two intrinsic elasticity axes of MoE-expert and bit-and jointly scale them to construct Elastic Self-Speculative Decoding (Elastic-SD), which serves as both an expert cache and a strongly aligned self-draft model accelerated by high HB bandwidth. Our LSB-augmented bit-sliced architecture exploits inherent redundancy in bit-slice representations to natively support bit-nested execution. On our 3D-stacked hardware, ELMoE-3D achieves an average $6.6\times$ speedup and $4.4\times$ energy efficiency gain over naive MoE serving on xPU across batch sizes 1-16, and delivers $2.2\times$ speedup and $1.4\times$ energy efficiency gain over the best-performing prior accelerator baseline.


翻译:混合专家(MoE)模型已成为大规模语言模型的主流架构,然而在本地部署中,由于批处理将稀疏的每令牌计算转化为密集的内存激活,系统本质上面临内存瓶颈。以内存为中心的计算架构(PIM、NMP)虽能提升带宽,但在高批处理量下,MoE模型低计算强度导致计算资源利用率不足。推测解码(SD)通过利用空闲计算资源减少目标模型调用次数,但其验证阶段仍需加载被拒绝令牌对应的专家权重,严重限制了该方法在MoE模型中的效率提升,尤其在低批处理量场景下更为明显。我们提出ELMoE-3D——一种基于混合键合(HB)的软硬件协同设计框架,通过统一缓存加速与推测解码,实现跨批处理量的整体加速。我们识别出MoE模型的两个内在弹性维度——专家粒度与比特粒度,通过联合缩放二者构建弹性自推测解码(Elastic-SD),该机制兼具专家缓存与强对齐自草稿模型功能,并由高HB带宽加速。本文提出的基于最低有效位(LSB)增强的比特切片架构,利用比特切片表示中的固有冗余特性,原生支持比特嵌套执行。在3D堆叠硬件上,ELMoE-3D在1-16的批处理量范围内,相较于基于XPU的朴素MoE部署实现平均6.6倍加速比与4.4倍能效提升,相较于现有最佳加速器基线方案实现2.2倍加速比与1.4倍能效提升。

0
下载
关闭预览

相关内容

混合专家模型简述
专知会员服务
18+阅读 · 2025年5月30日
《混合专家模型推理优化技术综述》
专知会员服务
46+阅读 · 2024年12月21日
混合专家模型在大模型微调领域进展
专知会员服务
48+阅读 · 2024年9月23日
Jeff Dean署名《深度学习稀疏专家模型》综述论文
专知会员服务
39+阅读 · 2022年10月4日
ELK跳不过的ES,图解助你掌握内部模型及数据结构
DBAplus社群
76+阅读 · 2019年1月10日
变分自编码器VAE:一步到位的聚类方案
PaperWeekly
25+阅读 · 2018年9月18日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关主题
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员