Accelerating High-Order Finite Element Simulations at Extreme Scale with FP64 Tensor Cores - 专知论文

会员服务 ·

0

有限元 · 张量核 · 高阶 · 有限元仿真 · GPU ·

Accelerating High-Order Finite Element Simulations at Extreme Scale with FP64 Tensor Cores

翻译：利用FP64张量核在超大规模上加速高阶有限元仿真

Jiqun Tu,Ian Karlin,John Camier,Veselin Dobrev,Tzanio Kolev,Stefan Henneking,Omar Ghattas

Finite element simulations play a critical role in a wide range of applications, from automotive design to tsunami modeling and computational electromagnetics. Performing these simulations efficiently at the high resolutions needed for practical applications and scientific insights necessitates the use of high-order methods and large-scale supercomputing. While much progress has been made in porting finite element codes to GPU systems in recent years, additional improvements in the efficiency and computational speed of GPU-accelerated high-order finite element simulations are in constant demand. In this paper, we demonstrate that the FP64 tensor cores on NVIDIA GPUs can be used to further accelerate such simulations, achieving significant speedups in key kernels of MFEM, a scalable open-source finite element library widely used in HPC applications. By integrating FP64 tensor cores with kernel fusion optimizations, we were able to achieve up to 2$\times$ performance gains and up to 83% energy efficiency gains on NVIDIA's Grace Hopper GH200 and Grace Blackwell GB200 architectures. To the best of our knowledge, this is the first time that FP64 tensor cores have been directly programmed to accelerate large-scale finite element scientific computing applications. We demonstrate the performance of the optimized kernels at exascale by showing near-perfect weak scaling efficiency and 90% strong scaling efficiency across nearly 10,000 GPUs on the Alps system. The new algorithms and MFEM enhancements directly benefit complex production codes, including the 2025 Gordon Bell Prize-winning application for real-time tsunami forecasting.

翻译：有限元仿真在从汽车设计到海啸建模和计算电磁学等广泛应用中发挥着关键作用。为了在实际应用和科学洞察所需的高分辨率下高效执行这些仿真，必须采用高阶方法和大规模超级计算。尽管近年来在将有限元代码移植到GPU系统方面取得了很大进展，但对GPU加速的高阶有限元仿真的效率和计算速度的进一步提升需求始终存在。本文中，我们证明了NVIDIA GPU上的FP64张量核可用于进一步加速此类仿真，在MFEM（一个广泛用于HPC应用的可扩展开源有限元库）的关键核心中实现了显著的加速。通过将FP64张量核与内核融合优化相结合，我们在NVIDIA的Grace Hopper GH200和Grace Blackwell GB200架构上实现了高达2倍的性能提升和高达83%的能效提升。据我们所知，这是首次直接编程利用FP64张量核来加速大规模有限元科学计算应用。我们通过在Alps系统上近10,000个GPU上展示近乎完美的弱扩展效率和90%的强扩展效率，证明了优化后的核心在百亿亿次级规模上的性能。新算法和MFEM增强功能直接惠及复杂的生产代码，包括获得2025年戈登·贝尔奖的实时海啸预报应用。

0

相关内容

有限元

《利用亚纳秒级授时与增强型分布式计算的太空域建模与仿真》报告

《利用亚纳秒级授时与增强型分布式计算的太空域建模与仿真》报告

专知会员服务

18+阅读 · 1月15日

物理学中的高级深度学习

物理学中的高级深度学习

专知会员服务

20+阅读 · 2025年12月9日

【ETHZ博士论文】设计与分析：一种面向极大规模、高性能、模块化的智能体仿真平台

【ETHZ博士论文】设计与分析：一种面向极大规模、高性能、模块化的智能体仿真平台

专知会员服务

31+阅读 · 2025年3月17日

【MIT博士论文】高效深度学习计算的模型加速

【MIT博士论文】高效深度学习计算的模型加速

专知会员服务

34+阅读 · 2024年8月23日

大模型在图上怎么做？北邮等最新《图基础模型》综述，详述GFMs关键技术

大模型在图上怎么做？北邮等最新《图基础模型》综述，详述GFMs关键技术

专知会员服务

60+阅读 · 2023年10月19日

Transformer如何训得更快更好？莫纳什大学最新《Transformer高效训练》综述，详述训练Transformer技术

Transformer如何训得更快更好？莫纳什大学最新《Transformer高效训练》综述，详述训练Transformer技术

专知会员服务

61+阅读 · 2023年2月4日

【高超音速飞行器】《利用机器学习技术在4至12马赫之间进行双锥体流场重建》2022最新167页论文，美国空军技术学院

【高超音速飞行器】《利用机器学习技术在4至12马赫之间进行双锥体流场重建》2022最新167页论文，美国空军技术学院

专知会员服务

26+阅读 · 2022年10月26日

《数字孪生仿真赋能要素及其在国防领域信息优势中的应用》2022最新16页技术报告，北约STO

《数字孪生仿真赋能要素及其在国防领域信息优势中的应用》2022最新16页技术报告，北约STO

专知会员服务

135+阅读 · 2022年10月25日

《用于边缘智能的高能效卷积神经网络加速器》博士论文，苏黎世大学和苏黎世联邦理工学院

《用于边缘智能的高能效卷积神经网络加速器》博士论文，苏黎世大学和苏黎世联邦理工学院

专知会员服务

24+阅读 · 2022年5月5日

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

专知会员服务

108+阅读 · 2020年10月9日

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

专知

29+阅读 · 2023年4月11日

《数字孪生仿真赋能要素及其在国防领域信息优势中的应用》2022最新16页技术报告，北约STO

《数字孪生仿真赋能要素及其在国防领域信息优势中的应用》2022最新16页技术报告，北约STO

专知

34+阅读 · 2022年10月26日

NLP如何用元学习？李宏毅老师NAACL2022最新《元学习自然语言处理》综述论文阐述最新研究进展

NLP如何用元学习？李宏毅老师NAACL2022最新《元学习自然语言处理》综述论文阐述最新研究进展

专知

25+阅读 · 2022年5月4日

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

专知

11+阅读 · 2021年4月23日

【仿真+AI】浅谈AI在CAE领域的应用

【仿真+AI】浅谈AI在CAE领域的应用

产业智能官

13+阅读 · 2019年12月7日

最近必读的六篇【Meta-Learning（元学习）】相关论文和代码

最近必读的六篇【Meta-Learning（元学习）】相关论文和代码

专知

61+阅读 · 2019年11月3日

近期必读的八篇【Meta-Learning（元学习）】相关论文和代码

近期必读的八篇【Meta-Learning（元学习）】相关论文和代码

专知

134+阅读 · 2019年9月15日

最新23页《深度学习图像超分辨率应用综述》论文，带你全面了解深度学习超分方法（附下载）

最新23页《深度学习图像超分辨率应用综述》论文，带你全面了解深度学习超分方法（附下载）

专知

43+阅读 · 2019年2月20日

超全总结：神经网络加速之量化模型 | 附带代码

超全总结：神经网络加速之量化模型 | 附带代码

PaperWeekly

12+阅读 · 2018年6月1日

深度学习之图像超分辨重建技术

深度学习之图像超分辨重建技术

机器学习研究会

12+阅读 · 2018年3月24日

大规模分数阶微分系统的高性能并行算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

从仿生的角度设计用于指导构建组织支架的单元细胞模块、有限元分析以及3D打印工艺路径规划

国家自然科学基金

0+阅读 · 2015年12月31日

基于GPU的几类分数阶微分方程的并行算法研究及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

高维晶格动力学的准确数值界面条件研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向数万处理器的有限元线性方程组与模态多级算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

高性能谱/谱元方法研究及其在多相复杂流体中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

四阶微分方程的谱和谱元方法

国家自然科学基金

0+阅读 · 2014年12月31日

千万自由度量级并行有限元模态和振动分析软件研发

国家自然科学基金

0+阅读 · 2014年12月31日

面向众核计算的数值方法协同设计--一种高效且高精度广义有限元方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

Efficient Graph Embedding at Scale: Optimizing CPU-GPU-SSD Integration

Arxiv

0+阅读 · 3月12日

Multi-GPU Quantum Circuit Simulation and the Impact of Network Performance

Arxiv

0+阅读 · 3月11日

Full-Scale GPU-Accelerated Transient EM-Thermal-Mechanical Co-Simulation for Early-Stage Design of Advanced Packages

Arxiv

0+阅读 · 3月7日

A Multi-Fidelity Tensor Emulator for Spatiotemporal Outputs: Emulation of Arctic Sea Ice Dynamics

Arxiv

0+阅读 · 3月5日

Efficient Aircraft Design Optimization Using Multi-Fidelity Models and Multi-fidelity Physics Informed Neural Networks

Arxiv

0+阅读 · 2月28日

Do We Need Tensor Cores for Stencil Computations?

Arxiv

0+阅读 · 2月28日

Hyper-reduction methods for accelerating nonlinear finite element simulations: open source implementation and reproducible benchmarks

Arxiv

0+阅读 · 2月26日

Exploiting network topology in brain-scale simulations of spiking neural networks

Arxiv

0+阅读 · 2月26日

SoliDualSPHysics: An extension of DualSPHysics for solid mechanics with hyperelasticity, plasticity, and fracture

Arxiv

0+阅读 · 2月16日

TrackCore-F: Deploying Transformer-Based Subatomic Particle Tracking on FPGAs

Arxiv

0+阅读 · 2月16日

VIP会员

文章信息

相关主题

有限元仿真

最新内容

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

专知会员服务

1+阅读 · 今天14:31

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

专知会员服务

0+阅读 · 今天14:29

面向具身智能与机器人仿真的三维生成：综述

面向具身智能与机器人仿真的三维生成：综述

专知会员服务

0+阅读 · 今天14:22

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

专知会员服务

11+阅读 · 今天6:39

《人工智能在全球军事与武器工业中的应用、方法论与影响》

《人工智能在全球军事与武器工业中的应用、方法论与影响》

专知会员服务

4+阅读 · 今天6:36

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

专知会员服务

8+阅读 · 今天6:28

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

专知会员服务

6+阅读 · 今天0:51

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

4+阅读 · 4月29日

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

专知会员服务

7+阅读 · 4月29日

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

专知会员服务

6+阅读 · 4月29日

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

专知会员服务

6+阅读 · 4月29日

《化繁为简：军事模拟器配置的对话式方法》报告

《化繁为简：军事模拟器配置的对话式方法》报告

专知会员服务

11+阅读 · 4月29日

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

专知会员服务

12+阅读 · 4月29日

《新兴技术武器化及其对全球风险的影响》

《新兴技术武器化及其对全球风险的影响》

专知会员服务

8+阅读 · 4月29日

《帕兰泰尔平台介绍：信息分析平台》

《帕兰泰尔平台介绍：信息分析平台》

专知会员服务

21+阅读 · 4月29日

相关VIP内容

《利用亚纳秒级授时与增强型分布式计算的太空域建模与仿真》报告

《利用亚纳秒级授时与增强型分布式计算的太空域建模与仿真》报告

专知会员服务

18+阅读 · 1月15日

物理学中的高级深度学习

物理学中的高级深度学习

专知会员服务

20+阅读 · 2025年12月9日

【ETHZ博士论文】设计与分析：一种面向极大规模、高性能、模块化的智能体仿真平台

【ETHZ博士论文】设计与分析：一种面向极大规模、高性能、模块化的智能体仿真平台

专知会员服务

31+阅读 · 2025年3月17日

【MIT博士论文】高效深度学习计算的模型加速

【MIT博士论文】高效深度学习计算的模型加速

专知会员服务

34+阅读 · 2024年8月23日

大模型在图上怎么做？北邮等最新《图基础模型》综述，详述GFMs关键技术

大模型在图上怎么做？北邮等最新《图基础模型》综述，详述GFMs关键技术

专知会员服务

60+阅读 · 2023年10月19日

Transformer如何训得更快更好？莫纳什大学最新《Transformer高效训练》综述，详述训练Transformer技术

Transformer如何训得更快更好？莫纳什大学最新《Transformer高效训练》综述，详述训练Transformer技术

专知会员服务

61+阅读 · 2023年2月4日

【高超音速飞行器】《利用机器学习技术在4至12马赫之间进行双锥体流场重建》2022最新167页论文，美国空军技术学院

【高超音速飞行器】《利用机器学习技术在4至12马赫之间进行双锥体流场重建》2022最新167页论文，美国空军技术学院

专知会员服务

26+阅读 · 2022年10月26日

《数字孪生仿真赋能要素及其在国防领域信息优势中的应用》2022最新16页技术报告，北约STO

《数字孪生仿真赋能要素及其在国防领域信息优势中的应用》2022最新16页技术报告，北约STO

专知会员服务

135+阅读 · 2022年10月25日

《用于边缘智能的高能效卷积神经网络加速器》博士论文，苏黎世大学和苏黎世联邦理工学院

《用于边缘智能的高能效卷积神经网络加速器》博士论文，苏黎世大学和苏黎世联邦理工学院

专知会员服务

24+阅读 · 2022年5月5日

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

专知会员服务

108+阅读 · 2020年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

面向具身智能与机器人仿真的三维生成：综述

相关资讯

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

专知

29+阅读 · 2023年4月11日

《数字孪生仿真赋能要素及其在国防领域信息优势中的应用》2022最新16页技术报告，北约STO

《数字孪生仿真赋能要素及其在国防领域信息优势中的应用》2022最新16页技术报告，北约STO

专知

34+阅读 · 2022年10月26日

NLP如何用元学习？李宏毅老师NAACL2022最新《元学习自然语言处理》综述论文阐述最新研究进展

NLP如何用元学习？李宏毅老师NAACL2022最新《元学习自然语言处理》综述论文阐述最新研究进展

专知

25+阅读 · 2022年5月4日

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

专知

11+阅读 · 2021年4月23日

【仿真+AI】浅谈AI在CAE领域的应用

【仿真+AI】浅谈AI在CAE领域的应用

产业智能官

13+阅读 · 2019年12月7日

最近必读的六篇【Meta-Learning（元学习）】相关论文和代码

最近必读的六篇【Meta-Learning（元学习）】相关论文和代码

专知

61+阅读 · 2019年11月3日

近期必读的八篇【Meta-Learning（元学习）】相关论文和代码

近期必读的八篇【Meta-Learning（元学习）】相关论文和代码

专知

134+阅读 · 2019年9月15日

最新23页《深度学习图像超分辨率应用综述》论文，带你全面了解深度学习超分方法（附下载）

最新23页《深度学习图像超分辨率应用综述》论文，带你全面了解深度学习超分方法（附下载）

专知

43+阅读 · 2019年2月20日

超全总结：神经网络加速之量化模型 | 附带代码

超全总结：神经网络加速之量化模型 | 附带代码

PaperWeekly

12+阅读 · 2018年6月1日

深度学习之图像超分辨重建技术

深度学习之图像超分辨重建技术

机器学习研究会

12+阅读 · 2018年3月24日

相关论文

Efficient Graph Embedding at Scale: Optimizing CPU-GPU-SSD Integration

Arxiv

0+阅读 · 3月12日

Multi-GPU Quantum Circuit Simulation and the Impact of Network Performance

Arxiv

0+阅读 · 3月11日

Full-Scale GPU-Accelerated Transient EM-Thermal-Mechanical Co-Simulation for Early-Stage Design of Advanced Packages

Arxiv

0+阅读 · 3月7日

A Multi-Fidelity Tensor Emulator for Spatiotemporal Outputs: Emulation of Arctic Sea Ice Dynamics

Arxiv

0+阅读 · 3月5日

Efficient Aircraft Design Optimization Using Multi-Fidelity Models and Multi-fidelity Physics Informed Neural Networks

Arxiv

0+阅读 · 2月28日

Do We Need Tensor Cores for Stencil Computations?

Arxiv

0+阅读 · 2月28日

Hyper-reduction methods for accelerating nonlinear finite element simulations: open source implementation and reproducible benchmarks

Arxiv

0+阅读 · 2月26日

Exploiting network topology in brain-scale simulations of spiking neural networks

Arxiv

0+阅读 · 2月26日

SoliDualSPHysics: An extension of DualSPHysics for solid mechanics with hyperelasticity, plasticity, and fracture

Arxiv

0+阅读 · 2月16日

TrackCore-F: Deploying Transformer-Based Subatomic Particle Tracking on FPGAs

Arxiv

0+阅读 · 2月16日

相关基金

大规模分数阶微分系统的高性能并行算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

从仿生的角度设计用于指导构建组织支架的单元细胞模块、有限元分析以及3D打印工艺路径规划

国家自然科学基金

0+阅读 · 2015年12月31日

基于GPU的几类分数阶微分方程的并行算法研究及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

高维晶格动力学的准确数值界面条件研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向数万处理器的有限元线性方程组与模态多级算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

高性能谱/谱元方法研究及其在多相复杂流体中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

四阶微分方程的谱和谱元方法

国家自然科学基金

0+阅读 · 2014年12月31日

千万自由度量级并行有限元模态和振动分析软件研发

国家自然科学基金

0+阅读 · 2014年12月31日

面向众核计算的数值方法协同设计--一种高效且高精度广义有限元方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员