In recent years, GPUs have become the preferred accelerators for HPC and ML applications due to their parallelism and fast memory bandwidth. While GPUs boost computation, inter-GPU communication can create scalability bottlenecks, especially as the number of GPUs per node and cluster grows. Traditionally, the CPU managed multi-GPU communication, but advancements in GPU-centric communication now challenge this CPU dominance by reducing its involvement, granting GPUs more autonomy in communication tasks, and addressing mismatches in multi-GPU communication and computation. This paper provides a landscape of GPU-centric communication, focusing on vendor mechanisms and user-level library supports. It aims to clarify the complexities and diverse options in this field, define the terminology, and categorize existing approaches within and across nodes. The paper discusses vendor-provided mechanisms for communication and memory management in multi-GPU execution and reviews major communication libraries, their benefits, challenges, and performance insights. Then, it explores key research paradigms, future outlooks, and open research questions. By extensively describing GPU-centric communication techniques across the software and hardware stacks, we provide researchers, programmers, engineers, and library designers insights on how to exploit multi-GPU systems at their best.


翻译:近年来,GPU凭借其并行性和快速内存带宽,已成为高性能计算和机器学习应用的首选加速器。虽然GPU提升了计算能力,但GPU间通信可能造成可扩展性瓶颈,尤其是在每个节点和集群中GPU数量不断增长的情况下。传统上,CPU负责管理多GPU通信,但GPU中心化通信的进展正通过减少CPU参与度、赋予GPU更多通信任务自主权以及解决多GPU通信与计算之间的不匹配问题,挑战着CPU的主导地位。本文系统梳理了GPU中心化通信的现状,重点关注供应商机制和用户级库支持。旨在阐明该领域的复杂性和多样化选择,定义相关术语,并对节点内及跨节点的现有方法进行分类。本文讨论了多GPU执行中供应商提供的通信与内存管理机制,并综述了主流通信库及其优势、挑战和性能表现。随后,探讨了关键研究范式、未来展望以及开放的研究问题。通过深入描述贯穿软硬件栈的GPU中心化通信技术,我们为研究人员、程序员、工程师和库设计者提供了关于如何充分发挥多GPU系统潜力的见解。

0
下载
关闭预览

相关内容

面向多GPU的图神经网络训练加速
专知会员服务
24+阅读 · 2023年1月19日
未来网络白皮书——SmartNIC/DPU技术白皮书
专知会员服务
83+阅读 · 2022年8月31日
深度神经网络 FPGA 设计进展、实现与展望
专知会员服务
59+阅读 · 2022年3月26日
深度神经网络FPGA设计进展、实现与展望
专知会员服务
36+阅读 · 2022年3月21日
专知会员服务
66+阅读 · 2021年5月2日
「基于通信的多智能体强化学习」 进展综述
盘点来自工业界的GPU共享方案
计算机视觉life
12+阅读 · 2021年9月2日
深度学习技术发展趋势浅析
人工智能学家
28+阅读 · 2019年4月11日
硬件加速神经网络综述
计算机研究与发展
26+阅读 · 2019年2月1日
深度学习的GPU:深度学习中使用GPU的经验和建议
数据挖掘入门与实战
11+阅读 · 2018年1月3日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员