MoE models offer efficient scaling through conditional computation, but their large parameter size and expensive expert offloading make on-device deployment challenging. Existing acceleration techniques such as prefetching or expert clustering often increase energy usage or reduce expert diversity. We present SliceMoE, an energy-efficient MoE inference framework for miss-rate-constrained deployment. SliceMoE introduces Dynamic Bit-Sliced Caching (DBSC), which caches experts at slice-level granularity and assigns precision on demand to expand effective expert capacity. To support mixed-precision experts without memory duplication, we propose Calibration-Free Asymmetric Matryoshka Quantization (AMAT), a truncation-based scheme that maintains compatibility between low-bit and high-bit slices. We further introduce Predictive Cache Warmup (PCW) to reduce early-decode cold misses by reshaping cache contents during prefill. Evaluated on DeepSeek-V2-Lite and Qwen1.5-MoE-A2.7B, SliceMoE reduces decode-stage energy consumption by up to 2.37x and 2.85x, respectively, and improves decode latency by up to 1.81x and 1.64x, while preserving near-high-bit accuracy. These results demonstrate that slice-level caching enables an efficient on-device MoE deployment.


翻译:MoE模型通过条件计算实现了高效的扩展,但其庞大的参数量以及昂贵的专家卸载使得设备端部署面临挑战。现有的加速技术(如预取或专家聚类)通常会增加能耗或降低专家多样性。本文提出SliceMoE,一种面向缺失率约束部署的高能效MoE推理框架。SliceMoE引入了动态位切片缓存(DBSC),该机制以切片级粒度缓存专家,并按需分配精度以扩展有效专家容量。为了支持混合精度专家且避免内存重复,我们提出了免校准非对称套娃量化(AMAT),这是一种基于截断的方案,能够保持低位与高位切片之间的兼容性。我们进一步引入了预测性缓存预热(PCW),通过在预填充阶段重塑缓存内容来减少早期解码阶段的冷缺失。在DeepSeek-V2-Lite和Qwen1.5-MoE-A2.7B上的评估表明,SliceMoE分别将解码阶段能耗降低了最高2.37倍和2.85倍,并将解码延迟提升了最高1.81倍和1.64倍,同时保持了接近高位精度的准确性。这些结果表明,切片级缓存能够实现高效的设备端MoE部署。

0
下载
关闭预览

相关内容

【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型
专知会员服务
30+阅读 · 2024年3月10日
 DiffRec: 扩散推荐模型(SIGIR'23)
专知会员服务
48+阅读 · 2023年4月16日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员