Stencil computation constitutes a cornerstone of scientific computing, serving as a critical kernel in domains ranging from fluid dynamics to weather simulation. While stencil computations are conventionally regarded as memory-bound and thus unsuitable for compute-centric Tensor Cores, recent empirical studies have demonstrated significant speedups after applying Tensor Cores, forming an apparent contradiction. This paper resolves this contradiction by conducting a systematic performance analysis of stencil computations on Tensor Cores. We begin by revisiting the adaptation of stencils onto Tensor Cores, quantifying the computational redundancy introduced by the transformations required to satisfy hardware constraints. These metrics are subsequently integrated into an enhanced performance model that explicitly accounts for the arithmetic intensity shifts driven by temporal fusion. Guided by this formulation, we derive analytical criteria to determine the suitability of Tensor Cores for varying stencil workloads. By classifying operational regions, we identify the specific \textit{sweet spot} for effective acceleration and further demonstrate how Sparse Tensor Cores expand this profitable design space. Extensive evaluations on NVIDIA GPUs across SOTA implementations, including DRStencil, EBISU, ConvStencil, and SPIDER, validate our performance model and analytical criteria. These results demonstrate the effectiveness of our approach in guiding stencil performance optimization.


翻译:模板计算是科学计算的基石,在从流体动力学到天气模拟等多个领域中都扮演着关键核心的角色。虽然模板计算传统上被认为是内存受限的,因此不适合以计算为中心的张量核心,但最近的实证研究表明,应用张量核心后能带来显著的加速,这形成了一个明显的矛盾。本文通过对张量核心上的模板计算进行系统性性能分析,解决了这一矛盾。我们首先重新审视了将模板适配到张量核心的过程,量化了为满足硬件约束所需的变换所引入的计算冗余。这些指标随后被整合到一个增强的性能模型中,该模型明确考虑了由时间融合驱动的算术强度变化。在此公式的指导下,我们推导出分析性标准,以确定张量核心对不同模板工作负载的适用性。通过对操作区域进行分类,我们确定了实现有效加速的特定“甜点”,并进一步展示了稀疏张量核心如何扩展这一有利的设计空间。在NVIDIA GPU上对包括DRStencil、EBISU、ConvStencil和SPIDER在内的最先进实现进行的广泛评估,验证了我们的性能模型和分析标准。这些结果证明了我们的方法在指导模板性能优化方面的有效性。

0
下载
关闭预览

相关内容

【NeurIPS2025】MaNGO:基于元学习的可适应图网络模拟器
专知会员服务
12+阅读 · 2025年10月8日
【ICML2025】立场:我们需要对生成式人工智能的算法理解
【MIT博士论文】高效深度学习计算的模型加速
专知会员服务
34+阅读 · 2024年8月23日
智算中心——赋能AI产业化、产业AI化
专知会员服务
44+阅读 · 2023年8月27日
模型压缩究竟在做什么?我们真的需要模型压缩么?
专知会员服务
28+阅读 · 2020年1月16日
专知会员服务
13+阅读 · 2019年11月23日
以BERT为例,如何优化机器学习模型性能?
专知
10+阅读 · 2019年10月3日
面试题:请简要介绍下tensorflow的计算图
七月在线实验室
14+阅读 · 2019年6月10日
【边缘计算】边缘计算面临的问题
产业智能官
17+阅读 · 2019年5月31日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
类脑计算的前沿论文,看我们推荐的这7篇
人工智能前沿讲习班
21+阅读 · 2019年1月7日
边缘计算(一)——边缘计算的兴起
大数据和云计算技术
12+阅读 · 2018年12月25日
一文梳理数据科学家必备核心算法与常用模型
THU数据派
16+阅读 · 2018年5月10日
机器学习模型的“可解释性”到底有多重要?
中国科学院自动化研究所
20+阅读 · 2018年3月1日
干货| PyTorch相比TensorFlow,存在哪些自身优势?
全球人工智能
15+阅读 · 2017年10月4日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
以BERT为例,如何优化机器学习模型性能?
专知
10+阅读 · 2019年10月3日
面试题:请简要介绍下tensorflow的计算图
七月在线实验室
14+阅读 · 2019年6月10日
【边缘计算】边缘计算面临的问题
产业智能官
17+阅读 · 2019年5月31日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
类脑计算的前沿论文,看我们推荐的这7篇
人工智能前沿讲习班
21+阅读 · 2019年1月7日
边缘计算(一)——边缘计算的兴起
大数据和云计算技术
12+阅读 · 2018年12月25日
一文梳理数据科学家必备核心算法与常用模型
THU数据派
16+阅读 · 2018年5月10日
机器学习模型的“可解释性”到底有多重要?
中国科学院自动化研究所
20+阅读 · 2018年3月1日
干货| PyTorch相比TensorFlow,存在哪些自身优势?
全球人工智能
15+阅读 · 2017年10月4日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员