Mixture-of-Experts (MoE) workloads rely on expert parallelism (EP) to achieve high GPU efficiency. State-of-the-art EP communication systems such as DeepEP demonstrate strong performance but exhibit poor portability across heterogeneous GPU and NIC platforms. The poor portability is rooted in architecture: GPU-initiated token-level RDMA communication requires tight vertical integration between GPUs and NICs, e.g., GPU writes to NIC driver/MMIO interfaces. We present UCCL-EP, a portable EP communication system that delivers DeepEP-level performance across heterogeneous GPU and NIC hardware. UCCL-EP replaces GPU-initiated RDMA with a high-throughput GPU-CPU control channel: compact token-routing commands are transferred to multithreaded CPU proxies, which then issue GPUDirect RDMA operations on behalf of GPUs. UCCL-EP further emulates various ordering semantics required by specialized EP communication modes using RDMA immediate data, enabling correctness on NICs that lack such ordering, e.g., AWS EFA. We implement UCCL-EP on NVIDIA and AMD GPUs with EFA and Broadcom NICs. On EFA, it outperforms the best existing EP solution by up to $2.1\times$ for dispatch and combine throughput. On NVIDIA-only platform, UCCL-EP achieves comparable performance to the original DeepEP. UCCL-EP also improves token throughput on SGLang by up to 40% on the NVIDIA+EFA platform, and improves DeepSeek-V3 training throughput over the AMD Primus/Megatron-LM framework by up to 45% on a 16-node AMD+Broadcom platform.


翻译:混合专家模型工作负载依赖专家并行技术来实现高GPU效率。最先进的专家并行通信系统(如DeepEP)虽展现出强劲性能,但在异构GPU与网卡平台间可移植性较差。其可移植性不佳的根源在于架构层面:GPU发起的令牌级RDMA通信需要GPU与网卡之间紧密的垂直集成,例如GPU需直接写入网卡驱动程序或MMIO接口。本文提出UCCL-EP,一种可移植的专家并行通信系统,可在异构GPU与网卡硬件上实现与DeepEP相当的性能。UCCL-EP采用高吞吐量的GPU-CPU控制通道替代GPU发起的RDMA:将紧凑的令牌路由命令传输至多线程CPU代理,随后由代理代表GPU执行GPUDirect RDMA操作。UCCL-EP进一步利用RDMA即时数据模拟了各类专用专家并行通信模式所需的排序语义,从而在缺乏此类排序支持的网卡(如AWS EFA)上确保正确性。我们在配备EFA与博通网卡的NVIDIA和AMD GPU平台上实现了UCCL-EP。在EFA平台上,其分发与聚合吞吐量最高可达现有最佳专家并行方案的$2.1$倍。在纯NVIDIA平台上,UCCL-EP实现了与原始DeepEP相当的性能。在NVIDIA+EFA平台上,UCCL-EP将SGLang的令牌吞吐量提升最高达40%;在16节点AMD+博通平台上,相较于AMD Primus/Megatron-LM框架,UCCL-EP将DeepSeek-V3训练吞吐量提升最高达45%。

0
下载
关闭预览

相关内容

未来网络白皮书——SmartNIC/DPU技术白皮书
专知会员服务
83+阅读 · 2022年8月31日
什么是专家系统?48页pdf
专知会员服务
70+阅读 · 2022年5月9日
CVPR2019教程《胶囊网络(Capsule Networks)综述》,附93页PPT
GAN生成式对抗网络
29+阅读 · 2019年6月21日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员