Distributed deep neural network training necessitates efficient GPU collective communications, which are inherently susceptible to deadlocks. GPU collective deadlocks arise easily in distributed deep learning applications when multiple collectives circularly wait for each other. GPU collective deadlocks pose a significant challenge to the correct functioning and efficiency of distributed deep learning, and no general effective solutions are currently available. Only in specific scenarios, ad-hoc methods, making an application invoke collectives in a consistent order across GPUs, can be used to prevent circular collective dependency and deadlocks. This paper presents DFCCL, a novel GPU collective communication library that provides a comprehensive approach for GPU collective deadlock prevention while maintaining high performance. DFCCL achieves preemption for GPU collectives at the bottom library level, effectively preventing deadlocks even if applications cause circular collective dependency. DFCCL ensures high performance with its execution and scheduling methods for collectives. Experiments show that DFCCL effectively prevents GPU collective deadlocks in various situations. Moreover, extensive evaluations demonstrate that DFCCL delivers performance comparable to or superior to NCCL, the state-of-the-art collective communication library highly optimized for NVIDIA GPUs.


翻译:分布式深度神经网络训练需要高效的GPU集体通信,而此类通信本质上容易发生死锁。当多个集体操作循环等待彼此时,GPU集体死锁在分布式深度学习应用中极易出现。GPU集体死锁对分布式深度学习的正确运行和效率构成重大挑战,目前尚无普遍有效的解决方案。仅在特定场景下,可采用临时方法——使应用程序在GPU间以一致顺序调用集体操作——来预防循环集体依赖和死锁。本文提出DFCCL,一种新颖的GPU集体通信库,为GPU集体死锁预防提供了全面解决方案,同时保持高性能。DFCCL在底层库级别实现GPU集体操作的抢占机制,即使应用程序引发循环集体依赖也能有效预防死锁。DFCCL通过其集体操作的执行与调度方法确保高性能。实验表明DFCCL能在多种场景下有效预防GPU集体死锁。此外,大量评估证明DFCCL提供与NCCL(专为NVIDIA GPU高度优化的最先进集体通信库)相当或更优的性能表现。

0
下载
关闭预览

相关内容

面向关系建模的合作多智能体深度强化学习综述
专知会员服务
41+阅读 · 2025年4月18日
神经网络后门攻击与防御综述
专知会员服务
19+阅读 · 2024年7月30日
面向多GPU的图神经网络训练加速
专知会员服务
24+阅读 · 2023年1月19日
盘点来自工业界的GPU共享方案
计算机视觉life
12+阅读 · 2021年9月2日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
深度学习的GPU:深度学习中使用GPU的经验和建议
数据挖掘入门与实战
11+阅读 · 2018年1月3日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Arxiv
0+阅读 · 4月23日
Arxiv
0+阅读 · 2月22日
VIP会员
最新内容
世界动作模型: 具身AI的下一个前沿
专知会员服务
1+阅读 · 今天12:28
全球十大防空反导系统:列表、射程与用途
专知会员服务
10+阅读 · 今天3:53
相关VIP内容
面向关系建模的合作多智能体深度强化学习综述
专知会员服务
41+阅读 · 2025年4月18日
神经网络后门攻击与防御综述
专知会员服务
19+阅读 · 2024年7月30日
面向多GPU的图神经网络训练加速
专知会员服务
24+阅读 · 2023年1月19日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员