As is intrinsic to the fundamental goal of quantum computing, classical simulation of quantum algorithms is notoriously demanding in resource requirements. Nonetheless, simulation is critical to the success of the field and a requirement for algorithm development and validation, as well as hardware design. GPU-acceleration has become standard practice for simulation, and due to the exponential scaling inherent in classical methods, multi-GPU simulation can be required to achieve representative system sizes. In this case, inter-GPU communications can bottleneck performance. In this work, we present the introduction of MPI into the QED-C Application-Oriented Benchmarks to facilitate benchmarking on HPC systems. We review the advances in interconnect technology and the APIs for multi-GPU communication. We benchmark using a variety of interconnect paths, including the recent NVIDIA Grace Blackwell NVL72 architecture that represents the first product to expand high-bandwidth GPU-specialized interconnects across multiple nodes. We show that while improvements to GPU architecture have led to speedups of over 4.5X across the last few generations of GPUs, advances in interconnect performance have had a larger impact with over 16X performance improvements in time to solution for multi-GPU simulations.


翻译:正如量子计算的基本目标所固有的那样,量子算法的经典模拟在资源需求方面是众所周知的苛刻。尽管如此,模拟对于该领域的成功至关重要,也是算法开发与验证以及硬件设计的必要条件。GPU加速已成为模拟的标准实践,并且由于经典方法固有的指数级扩展特性,可能需要多GPU模拟才能达到具有代表性的系统规模。在这种情况下,GPU间的通信可能成为性能瓶颈。在本工作中,我们将MPI引入QED-C面向应用的基准测试套件,以便于在HPC系统上进行基准测试。我们回顾了互连技术的进展以及用于多GPU通信的API。我们使用多种互连路径进行基准测试,包括近期推出的NVIDIA Grace Blackwell NVL72架构,该架构是首个将高带宽GPU专用互连扩展到多节点的产品。我们表明,虽然GPU架构的改进使得过去几代GPU实现了超过4.5倍的加速,但互连性能的进步产生了更大的影响,使得多GPU模拟的求解时间实现了超过16倍的性能提升。

0
下载
关闭预览

相关内容

面向多GPU的图神经网络训练加速
专知会员服务
24+阅读 · 2023年1月19日
2021年中国量子计算应用市场研究报告
专知会员服务
38+阅读 · 2021年10月28日
专知会员服务
37+阅读 · 2021年9月12日
盘点来自工业界的GPU共享方案
计算机视觉life
12+阅读 · 2021年9月2日
谷歌EfficientNet缩放模型,PyTorch实现登热榜
机器学习算法与Python学习
11+阅读 · 2019年6月4日
硬件加速神经网络综述
计算机研究与发展
26+阅读 · 2019年2月1日
图神经网络最近这么火,不妨看看我们精选的这七篇
人工智能前沿讲习班
37+阅读 · 2018年12月10日
【优青论文】深度神经网络压缩与加速综述
计算机研究与发展
17+阅读 · 2018年9月20日
超全总结:神经网络加速之量化模型 | 附带代码
深度学习的GPU:深度学习中使用GPU的经验和建议
数据挖掘入门与实战
11+阅读 · 2018年1月3日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关资讯
盘点来自工业界的GPU共享方案
计算机视觉life
12+阅读 · 2021年9月2日
谷歌EfficientNet缩放模型,PyTorch实现登热榜
机器学习算法与Python学习
11+阅读 · 2019年6月4日
硬件加速神经网络综述
计算机研究与发展
26+阅读 · 2019年2月1日
图神经网络最近这么火,不妨看看我们精选的这七篇
人工智能前沿讲习班
37+阅读 · 2018年12月10日
【优青论文】深度神经网络压缩与加速综述
计算机研究与发展
17+阅读 · 2018年9月20日
超全总结:神经网络加速之量化模型 | 附带代码
深度学习的GPU:深度学习中使用GPU的经验和建议
数据挖掘入门与实战
11+阅读 · 2018年1月3日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员