Comprehensive Deadlock Prevention for GPU Collective Communication - 专知论文

会员服务 ·

0

GPU · 操作 · 死锁预防 · 分布式深度学习 · 一致 ·

Comprehensive Deadlock Prevention for GPU Collective Communication

翻译：GPU集体通信的全面死锁预防

Lichen Pan,Juncheng Liu,Yongquan Fu,Jinhui Yuan,Rongkai Zhang,Pengze Li,Zhen Xiao

Distributed deep neural network training necessitates efficient GPU collective communications, which are inherently susceptible to deadlocks. GPU collective deadlocks arise easily in distributed deep learning applications when multiple collectives circularly wait for each other. GPU collective deadlocks pose a significant challenge to the correct functioning and efficiency of distributed deep learning, and no general effective solutions are currently available. Only in specific scenarios, ad-hoc methods, making an application invoke collectives in a consistent order across GPUs, can be used to prevent circular collective dependency and deadlocks. This paper presents DFCCL, a novel GPU collective communication library that provides a comprehensive approach for GPU collective deadlock prevention while maintaining high performance. DFCCL achieves preemption for GPU collectives at the bottom library level, effectively preventing deadlocks even if applications cause circular collective dependency. DFCCL ensures high performance with its execution and scheduling methods for collectives. Experiments show that DFCCL effectively prevents GPU collective deadlocks in various situations. Moreover, extensive evaluations demonstrate that DFCCL delivers performance comparable to or superior to NCCL, the state-of-the-art collective communication library highly optimized for NVIDIA GPUs.

翻译：分布式深度神经网络训练需要高效的GPU集体通信，而此类通信本质上容易发生死锁。当多个集体操作循环等待彼此时，GPU集体死锁在分布式深度学习应用中极易出现。GPU集体死锁对分布式深度学习的正确运行和效率构成重大挑战，目前尚无普遍有效的解决方案。仅在特定场景下，可采用临时方法——使应用程序在GPU间以一致顺序调用集体操作——来预防循环集体依赖和死锁。本文提出DFCCL，一种新颖的GPU集体通信库，为GPU集体死锁预防提供了全面解决方案，同时保持高性能。DFCCL在底层库级别实现GPU集体操作的抢占机制，即使应用程序引发循环集体依赖也能有效预防死锁。DFCCL通过其集体操作的执行与调度方法确保高性能。实验表明DFCCL能在多种场景下有效预防GPU集体死锁。此外，大量评估证明DFCCL提供与NCCL（专为NVIDIA GPU高度优化的最先进集体通信库）相当或更优的性能表现。

0

相关内容

GPU

面向关系建模的合作多智能体深度强化学习综述

面向关系建模的合作多智能体深度强化学习综述

专知会员服务

41+阅读 · 2025年4月18日

神经网络后门攻击与防御综述

神经网络后门攻击与防御综述

专知会员服务

19+阅读 · 2024年7月30日

【ChatGPT系列报告】ChatGPT的“背后英雄”，100页报告看懂GPU

【ChatGPT系列报告】ChatGPT的“背后英雄”，100页报告看懂GPU

专知会员服务

122+阅读 · 2023年2月18日

面向多GPU的图神经网络训练加速

面向多GPU的图神经网络训练加速

专知会员服务

24+阅读 · 2023年1月19日

【ICML2022】DepthShrinker:一种新的压缩范式，用于提高紧凑神经网络的实际硬件效率

【ICML2022】DepthShrinker:一种新的压缩范式，用于提高紧凑神经网络的实际硬件效率

专知会员服务

11+阅读 · 2022年6月5日

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

专知会员服务

46+阅读 · 2022年5月27日

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

专知会员服务

33+阅读 · 2020年4月1日

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

专知会员服务

10+阅读 · 2019年11月13日

【O'Reilly TensorFlow Conference 2019】恶意软件检测（Generative malware outbreak detection），Sean Park | Trend Micro

【O'Reilly TensorFlow Conference 2019】恶意软件检测（Generative malware outbreak detection），Sean Park | Trend Micro

专知会员服务

15+阅读 · 2019年11月13日

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

专知会员服务

26+阅读 · 2019年10月3日

盘点来自工业界的GPU共享方案

盘点来自工业界的GPU共享方案

计算机视觉life

12+阅读 · 2021年9月2日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

专知

21+阅读 · 2019年12月31日

Google DeepMind最新报告—深度神经网络压缩进展（附PPT下载）

Google DeepMind最新报告—深度神经网络压缩进展（附PPT下载）

专知

28+阅读 · 2019年4月16日

基于车路协同的群体智能协同

基于车路协同的群体智能协同

智能交通技术

10+阅读 · 2019年1月23日

人工智能已到瓶颈！院士“联名”反深度学习，并指出AI未来发展方向

人工智能已到瓶颈！院士“联名”反深度学习，并指出AI未来发展方向

算法与数学之美

49+阅读 · 2018年12月2日

深度学习的GPU：深度学习中使用GPU的经验和建议

深度学习的GPU：深度学习中使用GPU的经验和建议

数据挖掘入门与实战

11+阅读 · 2018年1月3日

【下载】最新TensorFlow深度学习教程指引《Learning TensorFlow，构建深度学习系统指引》

【下载】最新TensorFlow深度学习教程指引《Learning TensorFlow，构建深度学习系统指引》

专知

28+阅读 · 2017年12月6日

经验 | Pytorch还是Tensorflow？英伟达工程师帮你总结了

经验 | Pytorch还是Tensorflow？英伟达工程师帮你总结了

AI100

10+阅读 · 2017年10月27日

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

机器人圈

35+阅读 · 2017年7月18日

复杂系统中多密码算法密钥协同安全研究

国家自然科学基金

0+阅读 · 2015年12月31日

即时通信中的隐蔽通信模型及方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于事件驱动的不完整信息耦合复杂网络群集动力学研究

国家自然科学基金

1+阅读 · 2015年12月31日

即时通讯匿名隐通道系统模型与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

NCCLbpf: Verified, Composable Policy Execution for GPU Collective Communication

Arxiv

0+阅读 · 5月4日

GICC: A High-Performance Runtime for GPU-Initiated Communication and Coordination in Modern HPC Systems

Arxiv

0+阅读 · 4月24日

The Landscape of GPU-Centric Communication

Arxiv

0+阅读 · 4月23日

Performance Isolation and Semantic Determinism in Efficient GPU Spatial Sharing

Arxiv

0+阅读 · 4月3日

Syncopate: Efficient Multi-GPU AI Kernels via Automatic Chunk-Centric Compute-Communication Overlap

Arxiv

0+阅读 · 4月3日

Syncopate: Efficient Multi-GPU AI Kernels via Automatic Chunk-Centric Compute-Communication Overlap

Arxiv

0+阅读 · 3月27日

Hidden Risks of Unmonitored GPUs in Intelligent Transportation Systems

Arxiv

0+阅读 · 3月14日

NCCLbpf: Verified, Composable Policy Execution for GPU Collective Communication

Arxiv

0+阅读 · 3月12日

Demystifying NCCL: An In-depth Analysis of GPU Communication Protocols and Algorithms

Arxiv

0+阅读 · 3月2日

The Landscape of GPU-Centric Communication

Arxiv

0+阅读 · 2月22日

VIP会员

文章信息

相关主题

分布式深度学习

最新内容

【博士论文】面向可扩展且可信智能系统的强化学习

【博士论文】面向可扩展且可信智能系统的强化学习

专知会员服务

1+阅读 · 今天12:32

世界动作模型: 具身AI的下一个前沿

世界动作模型: 具身AI的下一个前沿

专知会员服务

1+阅读 · 今天12:28

全球十大防空反导系统：列表、射程与用途

全球十大防空反导系统：列表、射程与用途

专知会员服务

10+阅读 · 今天3:53

俄乌战争中的乌克兰一体化防空反导实战经验教训（5000字，中文版下载）

俄乌战争中的乌克兰一体化防空反导实战经验教训（5000字，中文版下载）

专知会员服务

20+阅读 · 今天3:03

集中式指挥、分布式控制、脱节训练？——统一作战管理架构是北约分布式作战与训练的关键（中文版PDF下载）

集中式指挥、分布式控制、脱节训练？——统一作战管理架构是北约分布式作战与训练的关键（中文版PDF下载）

专知会员服务

15+阅读 · 今天2:35

《实现协作自主：从人机团队到多智能体系统》190页

《实现协作自主：从人机团队到多智能体系统》190页

专知会员服务

11+阅读 · 今天2:31

《推进多智能体系统：面向可扩展与鲁棒的学习与控制》200页

《推进多智能体系统：面向可扩展与鲁棒的学习与控制》200页

专知会员服务

7+阅读 · 今天2:28

《基于事件相机的模拟与神经网络处理在自主空中加油中的应用》最新100页

《基于事件相机的模拟与神经网络处理在自主空中加油中的应用》最新100页

专知会员服务

8+阅读 · 今天2:25

[ICML 2026] SOL：让大模型把算力花在关键Token上：自优化语言模型

[ICML 2026] SOL：让大模型把算力花在关键Token上：自优化语言模型

专知会员服务

4+阅读 · 5月12日

人工智能解释公平性：统一框架、公理与负责任AI的未来方向

人工智能解释公平性：统一框架、公理与负责任AI的未来方向

专知会员服务

7+阅读 · 5月12日

《美军软件工厂案例研究：空军数字人才的人员需求》

《美军软件工厂案例研究：空军数字人才的人员需求》

专知会员服务

11+阅读 · 5月12日

《美国防部DevSecOps实践现状：软件工厂之现代战争的数字兵工厂》47页文件

《美国防部DevSecOps实践现状：软件工厂之现代战争的数字兵工厂》47页文件

专知会员服务

11+阅读 · 5月12日

有意义的人类指挥：迈向军事人机交互新模型探析（中文版PDF下载，2.5万字，2026年）

有意义的人类指挥：迈向军事人机交互新模型探析（中文版PDF下载，2.5万字，2026年）

专知会员服务

22+阅读 · 5月12日

《执行无人机蜂群任务：智能体增强大语言模型推理赋能无人机物联网》

《执行无人机蜂群任务：智能体增强大语言模型推理赋能无人机物联网》

专知会员服务

10+阅读 · 5月12日

下一代软件定义无线电：锻造现代战场的数字支柱

下一代软件定义无线电：锻造现代战场的数字支柱

专知会员服务

9+阅读 · 5月12日

相关VIP内容

面向关系建模的合作多智能体深度强化学习综述

面向关系建模的合作多智能体深度强化学习综述

专知会员服务

41+阅读 · 2025年4月18日

神经网络后门攻击与防御综述

神经网络后门攻击与防御综述

专知会员服务

19+阅读 · 2024年7月30日

【ChatGPT系列报告】ChatGPT的“背后英雄”，100页报告看懂GPU

【ChatGPT系列报告】ChatGPT的“背后英雄”，100页报告看懂GPU

专知会员服务

122+阅读 · 2023年2月18日

面向多GPU的图神经网络训练加速

面向多GPU的图神经网络训练加速

专知会员服务

24+阅读 · 2023年1月19日

【ICML2022】DepthShrinker:一种新的压缩范式，用于提高紧凑神经网络的实际硬件效率

【ICML2022】DepthShrinker:一种新的压缩范式，用于提高紧凑神经网络的实际硬件效率

专知会员服务

11+阅读 · 2022年6月5日

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

专知会员服务

46+阅读 · 2022年5月27日

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

专知会员服务

33+阅读 · 2020年4月1日

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

专知会员服务

10+阅读 · 2019年11月13日

【O'Reilly TensorFlow Conference 2019】恶意软件检测（Generative malware outbreak detection），Sean Park | Trend Micro

【O'Reilly TensorFlow Conference 2019】恶意软件检测（Generative malware outbreak detection），Sean Park | Trend Micro

专知会员服务

15+阅读 · 2019年11月13日

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

专知会员服务

26+阅读 · 2019年10月3日

热门VIP内容

开通专知VIP会员享更多权益服务

世界动作模型: 具身AI的下一个前沿

俄乌战争中的乌克兰一体化防空反导实战经验教训（5000字，中文版下载）

【博士论文】面向可扩展且可信智能系统的强化学习

全球十大防空反导系统：列表、射程与用途

相关资讯

盘点来自工业界的GPU共享方案

盘点来自工业界的GPU共享方案

计算机视觉life

12+阅读 · 2021年9月2日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

专知

21+阅读 · 2019年12月31日

Google DeepMind最新报告—深度神经网络压缩进展（附PPT下载）

Google DeepMind最新报告—深度神经网络压缩进展（附PPT下载）

专知

28+阅读 · 2019年4月16日

基于车路协同的群体智能协同

基于车路协同的群体智能协同

智能交通技术

10+阅读 · 2019年1月23日

人工智能已到瓶颈！院士“联名”反深度学习，并指出AI未来发展方向

人工智能已到瓶颈！院士“联名”反深度学习，并指出AI未来发展方向

算法与数学之美

49+阅读 · 2018年12月2日

深度学习的GPU：深度学习中使用GPU的经验和建议

深度学习的GPU：深度学习中使用GPU的经验和建议

数据挖掘入门与实战

11+阅读 · 2018年1月3日

【下载】最新TensorFlow深度学习教程指引《Learning TensorFlow，构建深度学习系统指引》

【下载】最新TensorFlow深度学习教程指引《Learning TensorFlow，构建深度学习系统指引》

专知

28+阅读 · 2017年12月6日

经验 | Pytorch还是Tensorflow？英伟达工程师帮你总结了

经验 | Pytorch还是Tensorflow？英伟达工程师帮你总结了

AI100

10+阅读 · 2017年10月27日

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

机器人圈

35+阅读 · 2017年7月18日

相关论文

NCCLbpf: Verified, Composable Policy Execution for GPU Collective Communication

Arxiv

0+阅读 · 5月4日

GICC: A High-Performance Runtime for GPU-Initiated Communication and Coordination in Modern HPC Systems

Arxiv

0+阅读 · 4月24日

The Landscape of GPU-Centric Communication

Arxiv

0+阅读 · 4月23日

Performance Isolation and Semantic Determinism in Efficient GPU Spatial Sharing

Arxiv

0+阅读 · 4月3日

Syncopate: Efficient Multi-GPU AI Kernels via Automatic Chunk-Centric Compute-Communication Overlap

Arxiv

0+阅读 · 4月3日

Syncopate: Efficient Multi-GPU AI Kernels via Automatic Chunk-Centric Compute-Communication Overlap

Arxiv

0+阅读 · 3月27日

Hidden Risks of Unmonitored GPUs in Intelligent Transportation Systems

Arxiv

0+阅读 · 3月14日

NCCLbpf: Verified, Composable Policy Execution for GPU Collective Communication

Arxiv

0+阅读 · 3月12日

Demystifying NCCL: An In-depth Analysis of GPU Communication Protocols and Algorithms

Arxiv

0+阅读 · 3月2日

The Landscape of GPU-Centric Communication

Arxiv

0+阅读 · 2月22日

相关基金

复杂系统中多密码算法密钥协同安全研究

国家自然科学基金

0+阅读 · 2015年12月31日

即时通信中的隐蔽通信模型及方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于事件驱动的不完整信息耦合复杂网络群集动力学研究

国家自然科学基金

1+阅读 · 2015年12月31日

即时通讯匿名隐通道系统模型与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员