Finite element simulations play a critical role in a wide range of applications, from automotive design to tsunami modeling and computational electromagnetics. Performing these simulations efficiently at the high resolutions needed for practical applications and scientific insights necessitates the use of high-order methods and large-scale supercomputing. While much progress has been made in porting finite element codes to GPU systems in recent years, additional improvements in the efficiency and computational speed of GPU-accelerated high-order finite element simulations are in constant demand. In this paper, we demonstrate that the FP64 tensor cores on NVIDIA GPUs can be used to further accelerate such simulations, achieving significant speedups in key kernels of MFEM, a scalable open-source finite element library widely used in HPC applications. By integrating FP64 tensor cores with kernel fusion optimizations, we were able to achieve up to 2$\times$ performance gains and up to 83% energy efficiency gains on NVIDIA's Grace Hopper GH200 and Grace Blackwell GB200 architectures. To the best of our knowledge, this is the first time that FP64 tensor cores have been directly programmed to accelerate large-scale finite element scientific computing applications. We demonstrate the performance of the optimized kernels at exascale by showing near-perfect weak scaling efficiency and 90% strong scaling efficiency across nearly 10,000 GPUs on the Alps system. The new algorithms and MFEM enhancements directly benefit complex production codes, including the 2025 Gordon Bell Prize-winning application for real-time tsunami forecasting.


翻译:有限元仿真在从汽车设计到海啸建模和计算电磁学等广泛应用中扮演着关键角色。为满足实际应用和科学洞察所需的高分辨率,高效执行这些仿真需要使用高阶方法与大规模超级计算。尽管近年来在将有限元代码移植到GPU系统方面取得了诸多进展,但对GPU加速的高阶有限元仿真的效率和计算速度的进一步提升仍有持续需求。本文证明,NVIDIA GPU上的FP64张量核心可用于进一步加速此类仿真,在广泛用于高性能计算应用的可扩展开源有限元库MFEM的关键核心中实现了显著加速。通过将FP64张量核心与内核融合优化相结合,我们在NVIDIA的Grace Hopper GH200和Grace Blackwell GB200架构上实现了高达2倍的性能提升和83%的能效提升。据我们所知,这是首次直接编程使用FP64张量核心来加速大规模有限元科学计算应用。我们在Alps系统上跨越近10,000个GPU展示了优化内核在百亿亿次规模下的性能,显示出近乎完美的弱可扩展效率与90%的强可扩展效率。新的算法和MFEM增强功能直接惠及复杂生产代码,包括2025年戈登·贝尔奖获奖应用——用于实时海啸预报的系统。

0
下载
关闭预览

相关内容

物理学中的高级深度学习
专知会员服务
20+阅读 · 2025年12月9日
【MIT博士论文】高效深度学习计算的模型加速
专知会员服务
34+阅读 · 2024年8月23日
面向多GPU的图神经网络训练加速
专知会员服务
24+阅读 · 2023年1月19日
盘点来自工业界的GPU共享方案
计算机视觉life
12+阅读 · 2021年9月2日
【仿真+AI】浅谈AI在CAE领域的应用
产业智能官
13+阅读 · 2019年12月7日
超全总结:神经网络加速之量化模型 | 附带代码
深度学习之图像超分辨重建技术
机器学习研究会
12+阅读 · 2018年3月24日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员