Collective communication is becoming increasingly important in data center and supercomputer workloads with an increase in distributed AI related jobs. However, existing libraries that provide collective support such as NCCL, RCCL, and Cray-MPICH exhibit several performance and scalability limitations on modern GPU supercomputers. To address these challenges, we introduce the Performant Collective Communication Library (PCCL), specifically targeted for distributed deep learning (DL) workloads. PCCL provides highly optimized implementations of key collectives used in distributed DL: all-gather, reduce-scatter, and all-reduce. PCCL uses a hierarchical design with learning-based adaptive selection of the best performing algorithms to scale efficiently to thousands of GPUs. It achieves substantial performance speedups over RCCL on 2048 GCDs of Frontier -- up to 168x for reduce-scatter, 33x for all-gather and 10x for all-reduce. More modest but still significant gains up to 5.7x over NCCL are observed on Perlmutter. These gains translate directly to performance improvement of production DL workloads: up to 4.9x speedup over RCCL in DeepSpeed ZeRO-3 training, and up to 2.4x speedup in DDP training.


翻译:随着分布式人工智能相关任务的增加,集合通信在数据中心和超级计算机工作负载中变得日益重要。然而,现有的提供集合通信支持的库(如NCCL、RCCL和Cray-MPICH)在现代GPU超级计算机上表现出若干性能和可扩展性限制。为应对这些挑战,我们推出了高性能集合通信库(PCCL),专门针对分布式深度学习工作负载。PCCL为分布式深度学习中使用的关键集合操作(all-gather、reduce-scatter和all-reduce)提供了高度优化的实现。PCCL采用分层设计,并基于学习自适应选择性能最佳的算法,从而能够高效扩展至数千个GPU。在Frontier超级计算机的2048个GCD上,PCCL相比RCCL实现了显著的性能加速:reduce-scatter最高达168倍,all-gather最高达33倍,all-reduce最高达10倍。在Perlmutter系统上,相比NCCL也观察到了虽较温和但仍显著的性能提升,最高达5.7倍。这些性能增益直接转化为生产级深度学习工作负载的性能提升:在DeepSpeed ZeRO-3训练中相比RCCL最高加速4.9倍,在DDP训练中最高加速2.4倍。

0
下载
关闭预览

相关内容

High Performance Computing. For example, IBM's Blue Gene
KnowledGPT:基于知识库的检索和存储访问增强大型语言模型
专知会员服务
48+阅读 · 2021年2月2日
【GNN】深度学习之上,图神经网络(GNN )崛起
产业智能官
16+阅读 · 2019年8月15日
展望:模型驱动的深度学习
人工智能学家
12+阅读 · 2018年1月23日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月23日
Arxiv
0+阅读 · 2月22日
VIP会员
最新内容
超越网格:作战环境对炮兵的影响
专知会员服务
1+阅读 · 今天15:35
KDD 2026 | MixRAGRec:面向LLM推荐的混合专家KG-RAG框架
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
4+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
4+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
14+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
8+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
相关VIP内容
KnowledGPT:基于知识库的检索和存储访问增强大型语言模型
专知会员服务
48+阅读 · 2021年2月2日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员