Scaled-out MoE LLMs and scaled-up SuperPods create new systems challenges for production Model-as-a-Service (MaaS), requiring disaggregation, low-latency communication, and decentralized serving. This report presents xDeepServe, the production serving system behind Huawei Cloud's MaaS offering on CloudMatrix384, a 48-server SuperPod with 384 Ascend 910C chips connected by a high-bandwidth UB fabric and global shared memory. It serves models including DeepSeek, Kimi, GLM, Qwen, and MiniMax, among others. xDeepServe is built around Transformerless, a disaggregated execution architecture that decomposes transformer inference into modular units -- attention, feedforward, and MoE -- and supports disaggregated Prefill-Decode and MoE-Attention deployments. To enable disaggregation, we develop XCCL, a memory-semantic communication layer providing microsecond-level point-to-point and scalable all-to-all primitives, and we extend FlowServe with decentralized DP groups and techniques to mitigate stragglers and synchronization variance. In a peak decoding configuration, xDeepServe reaches 2400 tokens/s per Ascend 910C chip at ~50ms time-per-output-token (TPOT).


翻译:规模化扩展的MoE大语言模型与超级集群的规模提升为生产级模型即服务(MaaS)带来了新的系统挑战,需要实现解耦架构、低延迟通信与去中心化服务。本报告介绍了xDeepServe——支撑华为云在CloudMatrix384超级集群上提供MaaS服务的生产级服务系统。该超级集群由48台服务器组成,搭载384颗Ascend 910C芯片,通过高带宽UB互连架构与全局共享内存连接。该系统服务于包括DeepSeek、Kimi、GLM、Qwen及MiniMax在内的多种模型。xDeepServe围绕Transformerless构建,这是一种解耦式执行架构,将Transformer推理分解为注意力、前馈网络和MoE等模块化单元,并支持解耦的预填充-解码与MoE-注意力部署。为实现解耦,我们开发了XCCL内存语义通信层,提供微秒级点对点通信及可扩展的全对全通信原语;同时扩展FlowServe系统,引入去中心化数据并行组及消除拖尾效应与同步波动的技术。在峰值解码配置下,xDeepServe在每颗Ascend 910C芯片上实现约2400 tokens/s的吞吐量,单token输出时间(TPOT)约为50毫秒。

0
下载
关闭预览

相关内容

大小模型端云协同进化技术进展
专知会员服务
19+阅读 · 2025年6月20日
模型即服务MaaS框架与应用研究报告(2024年),46页pdf
专知会员服务
66+阅读 · 2024年6月9日
国家标准《信息技术云计算参考架构》
专知会员服务
37+阅读 · 2024年5月24日
华为盘古大模型:让AI重塑千行百业,37页ppt
专知会员服务
140+阅读 · 2023年10月31日
华为发布业界首个《云原生数据库白皮书》,25页pdf
专知会员服务
51+阅读 · 2022年8月20日
华为分享 异质图表示学习(异质图神经网络)
图与推荐
14+阅读 · 2020年9月10日
基于MaaS的智慧交通体系
智能交通技术
11+阅读 · 2019年6月13日
出行即服务(MAAS)框架
智能交通技术
53+阅读 · 2019年5月22日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
最新内容
《人工智能赋能电磁战》(报告)
专知会员服务
2+阅读 · 4月17日
【CMU博士论文】迈向可扩展的开放世界三维感知
前馈式三维场景建模
专知会员服务
1+阅读 · 4月17日
(译文)认知战:以士兵为目标,塑造战略
专知会员服务
3+阅读 · 4月17日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员