In recent years, GPUs have become the preferred accelerators for HPC and ML applications due to their parallelism and fast memory bandwidth. While GPUs boost computation, inter-GPU communication can create scalability bottlenecks, especially as the number of GPUs per node and cluster grows. Traditionally, the CPU managed multi-GPU communication, but advancements in GPU-centric communication now challenge this CPU dominance by reducing its involvement, granting GPUs more autonomy in communication tasks, and addressing mismatches in multi-GPU communication and computation. This paper provides a landscape of GPU-centric communication, focusing on vendor mechanisms and user-level library supports. It aims to clarify the complexities and diverse options in this field, define the terminology, and categorize existing approaches within and across nodes. The paper discusses vendor-provided mechanisms for communication and memory management in multi-GPU execution and reviews major communication libraries, their benefits, challenges, and performance insights. Then, it explores key research paradigms, future outlooks, and open research questions. By extensively describing GPU-centric communication techniques across the software and hardware stacks, we provide researchers, programmers, engineers, and library designers insights on how to exploit multi-GPU systems at their best.


翻译:近年来,凭借并行计算能力与高内存带宽优势,GPU已成为高性能计算与机器学习领域的首选加速器。虽然GPU能加速计算,但随着单节点和集群中GPU数量的增长,GPU间通信可能引发可扩展性瓶颈。传统上,CPU负责管理多GPU通信,但以GPU为中心的通信技术进步正通过减少CPU参与度、赋予GPU更多通信自主权、以及解决多GPU通信与计算不匹配问题,逐步挑战CPU的主导地位。本文全面梳理了以GPU为中心的通信技术,重点分析厂商机制与用户级库支持,旨在厘清该领域的复杂性与多样化方案,规范术语体系,并对节点内与节点间的现有方法进行分类。我们探讨了多GPU执行中厂商提供的通信与内存管理机制,评述了主流通信库的优势、挑战及性能表现。进而,本文深入剖析关键研究范式、未来展望及开放性问题。通过贯通软硬件堆栈的GPU中心通信技术系统性描述,为研究人员、程序员、工程师及库设计者提供如何充分发挥多GPU系统性能的深刻见解。

0
下载
关闭预览

相关内容

面向多GPU的图神经网络训练加速
专知会员服务
24+阅读 · 2023年1月19日
未来网络白皮书——SmartNIC/DPU技术白皮书
专知会员服务
83+阅读 · 2022年8月31日
专知会员服务
66+阅读 · 2021年5月2日
盘点来自工业界的GPU共享方案
计算机视觉life
12+阅读 · 2021年9月2日
硬件加速神经网络综述
计算机研究与发展
26+阅读 · 2019年2月1日
从0到1,这篇深度学习综述送给你!
机器学习算法与Python学习
27+阅读 · 2018年6月13日
深度学习的GPU:深度学习中使用GPU的经验和建议
数据挖掘入门与实战
11+阅读 · 2018年1月3日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月22日
VIP会员
相关主题
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员