Do We Need Tensor Cores for Stencil Computations? - 专知论文

会员服务 ·

0

张量核 · 模板计算 · 分析 · 性能模型 · 内存 ·

Do We Need Tensor Cores for Stencil Computations?

翻译：我们是否需要张量核心进行模板计算？

Qiqi Gu,Chenpeng Wu,Heng Shi,Jianguo Yao,Haibing Guan

Stencil computation constitutes a cornerstone of scientific computing, serving as a critical kernel in domains ranging from fluid dynamics to weather simulation. While stencil computations are conventionally regarded as memory-bound and thus unsuitable for compute-centric Tensor Cores, recent empirical studies have demonstrated significant speedups after applying Tensor Cores, forming an apparent contradiction. This paper resolves this contradiction by conducting a systematic performance analysis of stencil computations on Tensor Cores. We begin by revisiting the adaptation of stencils onto Tensor Cores, quantifying the computational redundancy introduced by the transformations required to satisfy hardware constraints. These metrics are subsequently integrated into an enhanced performance model that explicitly accounts for the arithmetic intensity shifts driven by temporal fusion. Guided by this formulation, we derive analytical criteria to determine the suitability of Tensor Cores for varying stencil workloads. By classifying operational regions, we identify the specific \textit{sweet spot} for effective acceleration and further demonstrate how Sparse Tensor Cores expand this profitable design space. Extensive evaluations on NVIDIA GPUs across SOTA implementations, including DRStencil, EBISU, ConvStencil, and SPIDER, validate our performance model and analytical criteria. These results demonstrate the effectiveness of our approach in guiding stencil performance optimization.

翻译：模板计算是科学计算的基石，在从流体动力学到天气模拟等多个领域中都扮演着关键核心的角色。虽然模板计算传统上被认为是内存受限的，因此不适合以计算为中心的张量核心，但最近的实证研究表明，应用张量核心后能带来显著的加速，这形成了一个明显的矛盾。本文通过对张量核心上的模板计算进行系统性性能分析，解决了这一矛盾。我们首先重新审视了将模板适配到张量核心的过程，量化了为满足硬件约束所需的变换所引入的计算冗余。这些指标随后被整合到一个增强的性能模型中，该模型明确考虑了由时间融合驱动的算术强度变化。在此公式的指导下，我们推导出分析性标准，以确定张量核心对不同模板工作负载的适用性。通过对操作区域进行分类，我们确定了实现有效加速的特定“甜点”，并进一步展示了稀疏张量核心如何扩展这一有利的设计空间。在NVIDIA GPU上对包括DRStencil、EBISU、ConvStencil和SPIDER在内的最先进实现进行的广泛评估，验证了我们的性能模型和分析标准。这些结果证明了我们的方法在指导模板性能优化方面的有效性。

0

相关内容

张量核

【NeurIPS2025】MaNGO：基于元学习的可适应图网络模拟器

【NeurIPS2025】MaNGO：基于元学习的可适应图网络模拟器

专知会员服务

12+阅读 · 2025年10月8日

【ICML2025】立场：我们需要对生成式人工智能的算法理解

【ICML2025】立场：我们需要对生成式人工智能的算法理解

专知会员服务

17+阅读 · 2025年7月12日

【MIT博士论文】高效深度学习计算的模型加速

【MIT博士论文】高效深度学习计算的模型加速

专知会员服务

34+阅读 · 2024年8月23日

智算中心——赋能AI产业化、产业AI化

智算中心——赋能AI产业化、产业AI化

专知会员服务

44+阅读 · 2023年8月27日

大模型在AI芯片如何训练？AWS AI等KDD2023最新《在新兴AI芯片上训练大规模基础模型》教程，147页pdf

大模型在AI芯片如何训练？AWS AI等KDD2023最新《在新兴AI芯片上训练大规模基础模型》教程，147页pdf

专知会员服务

68+阅读 · 2023年8月20日

【斯坦福博士论文】深度学习核编译为局部感知数据流，109页pdf

【斯坦福博士论文】深度学习核编译为局部感知数据流，109页pdf

专知会员服务

28+阅读 · 2023年4月5日

《量子计算和算法信息在基因组学和强化学习中的因果模型的应用》2022最新博士论文，代尔夫特理工大学

《量子计算和算法信息在基因组学和强化学习中的因果模型的应用》2022最新博士论文，代尔夫特理工大学

专知会员服务

21+阅读 · 2022年6月29日

我们真的需要深度学习模型来预测时间序列吗? Do We Really Need Deep Learning Models for Time Series Forecasting?

我们真的需要深度学习模型来预测时间序列吗? Do We Really Need Deep Learning Models for Time Series Forecasting?

专知会员服务

37+阅读 · 2022年3月13日

模型压缩究竟在做什么？我们真的需要模型压缩么？

模型压缩究竟在做什么？我们真的需要模型压缩么？

专知会员服务

28+阅读 · 2020年1月16日

【Caltech&NVIDiA】张量在机器学习中的作用（附pdf）

专知会员服务

13+阅读 · 2019年11月23日

以BERT为例,如何优化机器学习模型性能?

以BERT为例,如何优化机器学习模型性能?

专知

10+阅读 · 2019年10月3日

面试题：请简要介绍下tensorflow的计算图

面试题：请简要介绍下tensorflow的计算图

七月在线实验室

14+阅读 · 2019年6月10日

【边缘计算】边缘计算面临的问题

【边缘计算】边缘计算面临的问题

产业智能官

17+阅读 · 2019年5月31日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

类脑计算的前沿论文，看我们推荐的这7篇

类脑计算的前沿论文，看我们推荐的这7篇

人工智能前沿讲习班

21+阅读 · 2019年1月7日

边缘计算（一）——边缘计算的兴起

边缘计算（一）——边缘计算的兴起

大数据和云计算技术

12+阅读 · 2018年12月25日

一文梳理数据科学家必备核心算法与常用模型

一文梳理数据科学家必备核心算法与常用模型

THU数据派

16+阅读 · 2018年5月10日

机器学习模型的“可解释性”到底有多重要？

机器学习模型的“可解释性”到底有多重要？

中国科学院自动化研究所

20+阅读 · 2018年3月1日

干货| PyTorch相比TensorFlow，存在哪些自身优势？

干货| PyTorch相比TensorFlow，存在哪些自身优势？

全球人工智能

15+阅读 · 2017年10月4日

面向浅水波大气动力方程求解器的可重构计算方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

核心化算法中的新技术研究

国家自然科学基金

8+阅读 · 2017年12月31日

基于脉冲神经膜系统的细胞核输出信号识别方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

心脏的多形态耦合与层级级联计算可视化方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

张量分析及其在高维信息处理中的应用

国家自然科学基金

4+阅读 · 2015年12月31日

基于绝热量子计算模型求解数学问题的理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

“模块化自组装”DNA计算模型的研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向大数据计算的高吞吐量众核处理器关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向众核计算的数值方法协同设计--一种高效且高精度广义有限元方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

噪声环境下腔量子电动力学量子计算与量子相干操控的理论研究

国家自然科学基金

0+阅读 · 2014年12月31日

Reference Architecture of a Quantum-Centric Supercomputer

Arxiv

0+阅读 · 3月11日

Multi-GPU Quantum Circuit Simulation and the Impact of Network Performance

Arxiv

0+阅读 · 3月11日

Accelerating High-Order Finite Element Simulations at Extreme Scale with FP64 Tensor Cores

Arxiv

0+阅读 · 3月10日

Automated Tensor-Relational Decomposition for Large-Scale Sparse Tensor Computation

Arxiv

0+阅读 · 3月9日

Linear Layouts: Robust Code Generation of Efficient Tensor Computation Using $\mathbb{F}_2$

Arxiv

0+阅读 · 3月6日

The GeometricKernels Package: Heat and Matérn Kernels for Geometric Learning on Manifolds, Meshes, and Graphs

Arxiv

0+阅读 · 3月2日

Do GPUs Really Need New Tabular File Formats?

Arxiv

0+阅读 · 2月19日

Pushing Tensor Accelerators Beyond MatMul in a User-Schedulable Language

Arxiv

0+阅读 · 2月11日

Tensor learning with orthogonal, Lorentz, and symplectic symmetries

Arxiv

0+阅读 · 2月10日

TreeTensor: Boost AI System on Nested Data with Constrained Tree-Like Tensor

Arxiv

0+阅读 · 2月9日

VIP会员

文章信息

相关主题

最新内容

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

专知会员服务

2+阅读 · 今天14:31

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

专知会员服务

1+阅读 · 今天14:29

面向具身智能与机器人仿真的三维生成：综述

面向具身智能与机器人仿真的三维生成：综述

专知会员服务

1+阅读 · 今天14:22

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

专知会员服务

13+阅读 · 今天6:39

《人工智能在全球军事与武器工业中的应用、方法论与影响》

《人工智能在全球军事与武器工业中的应用、方法论与影响》

专知会员服务

6+阅读 · 今天6:36

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

专知会员服务

10+阅读 · 今天6:28

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

专知会员服务

7+阅读 · 今天0:51

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

6+阅读 · 4月29日

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

专知会员服务

7+阅读 · 4月29日

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

专知会员服务

6+阅读 · 4月29日

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

专知会员服务

6+阅读 · 4月29日

《化繁为简：军事模拟器配置的对话式方法》报告

《化繁为简：军事模拟器配置的对话式方法》报告

专知会员服务

11+阅读 · 4月29日

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

专知会员服务

12+阅读 · 4月29日

《新兴技术武器化及其对全球风险的影响》

《新兴技术武器化及其对全球风险的影响》

专知会员服务

8+阅读 · 4月29日

《帕兰泰尔平台介绍：信息分析平台》

《帕兰泰尔平台介绍：信息分析平台》

专知会员服务

21+阅读 · 4月29日

相关VIP内容

【NeurIPS2025】MaNGO：基于元学习的可适应图网络模拟器

【NeurIPS2025】MaNGO：基于元学习的可适应图网络模拟器

专知会员服务

12+阅读 · 2025年10月8日

【ICML2025】立场：我们需要对生成式人工智能的算法理解

【ICML2025】立场：我们需要对生成式人工智能的算法理解

专知会员服务

17+阅读 · 2025年7月12日

【MIT博士论文】高效深度学习计算的模型加速

【MIT博士论文】高效深度学习计算的模型加速

专知会员服务

34+阅读 · 2024年8月23日

智算中心——赋能AI产业化、产业AI化

智算中心——赋能AI产业化、产业AI化

专知会员服务

44+阅读 · 2023年8月27日

大模型在AI芯片如何训练？AWS AI等KDD2023最新《在新兴AI芯片上训练大规模基础模型》教程，147页pdf

大模型在AI芯片如何训练？AWS AI等KDD2023最新《在新兴AI芯片上训练大规模基础模型》教程，147页pdf

专知会员服务

68+阅读 · 2023年8月20日

【斯坦福博士论文】深度学习核编译为局部感知数据流，109页pdf

【斯坦福博士论文】深度学习核编译为局部感知数据流，109页pdf

专知会员服务

28+阅读 · 2023年4月5日

《量子计算和算法信息在基因组学和强化学习中的因果模型的应用》2022最新博士论文，代尔夫特理工大学

《量子计算和算法信息在基因组学和强化学习中的因果模型的应用》2022最新博士论文，代尔夫特理工大学

专知会员服务

21+阅读 · 2022年6月29日

我们真的需要深度学习模型来预测时间序列吗? Do We Really Need Deep Learning Models for Time Series Forecasting?

我们真的需要深度学习模型来预测时间序列吗? Do We Really Need Deep Learning Models for Time Series Forecasting?

专知会员服务

37+阅读 · 2022年3月13日

模型压缩究竟在做什么？我们真的需要模型压缩么？

模型压缩究竟在做什么？我们真的需要模型压缩么？

专知会员服务

28+阅读 · 2020年1月16日

【Caltech&NVIDiA】张量在机器学习中的作用（附pdf）

专知会员服务

13+阅读 · 2019年11月23日

热门VIP内容

开通专知VIP会员享更多权益服务

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

面向具身智能与机器人仿真的三维生成：综述

相关资讯

以BERT为例,如何优化机器学习模型性能?

以BERT为例,如何优化机器学习模型性能?

专知

10+阅读 · 2019年10月3日

面试题：请简要介绍下tensorflow的计算图

面试题：请简要介绍下tensorflow的计算图

七月在线实验室

14+阅读 · 2019年6月10日

【边缘计算】边缘计算面临的问题

【边缘计算】边缘计算面临的问题

产业智能官

17+阅读 · 2019年5月31日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

类脑计算的前沿论文，看我们推荐的这7篇

类脑计算的前沿论文，看我们推荐的这7篇

人工智能前沿讲习班

21+阅读 · 2019年1月7日

边缘计算（一）——边缘计算的兴起

边缘计算（一）——边缘计算的兴起

大数据和云计算技术

12+阅读 · 2018年12月25日

一文梳理数据科学家必备核心算法与常用模型

一文梳理数据科学家必备核心算法与常用模型

THU数据派

16+阅读 · 2018年5月10日

机器学习模型的“可解释性”到底有多重要？

机器学习模型的“可解释性”到底有多重要？

中国科学院自动化研究所

20+阅读 · 2018年3月1日

干货| PyTorch相比TensorFlow，存在哪些自身优势？

干货| PyTorch相比TensorFlow，存在哪些自身优势？

全球人工智能

15+阅读 · 2017年10月4日

相关论文

Reference Architecture of a Quantum-Centric Supercomputer

Arxiv

0+阅读 · 3月11日

Multi-GPU Quantum Circuit Simulation and the Impact of Network Performance

Arxiv

0+阅读 · 3月11日

Accelerating High-Order Finite Element Simulations at Extreme Scale with FP64 Tensor Cores

Arxiv

0+阅读 · 3月10日

Automated Tensor-Relational Decomposition for Large-Scale Sparse Tensor Computation

Arxiv

0+阅读 · 3月9日

Linear Layouts: Robust Code Generation of Efficient Tensor Computation Using $\mathbb{F}_2$

Arxiv

0+阅读 · 3月6日

The GeometricKernels Package: Heat and Matérn Kernels for Geometric Learning on Manifolds, Meshes, and Graphs

Arxiv

0+阅读 · 3月2日

Do GPUs Really Need New Tabular File Formats?

Arxiv

0+阅读 · 2月19日

Pushing Tensor Accelerators Beyond MatMul in a User-Schedulable Language

Arxiv

0+阅读 · 2月11日

Tensor learning with orthogonal, Lorentz, and symplectic symmetries

Arxiv

0+阅读 · 2月10日

TreeTensor: Boost AI System on Nested Data with Constrained Tree-Like Tensor

Arxiv

0+阅读 · 2月9日

相关基金

面向浅水波大气动力方程求解器的可重构计算方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

核心化算法中的新技术研究

国家自然科学基金

8+阅读 · 2017年12月31日

基于脉冲神经膜系统的细胞核输出信号识别方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

心脏的多形态耦合与层级级联计算可视化方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

张量分析及其在高维信息处理中的应用

国家自然科学基金

4+阅读 · 2015年12月31日

基于绝热量子计算模型求解数学问题的理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

“模块化自组装”DNA计算模型的研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向大数据计算的高吞吐量众核处理器关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向众核计算的数值方法协同设计--一种高效且高精度广义有限元方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

噪声环境下腔量子电动力学量子计算与量子相干操控的理论研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员