Accurate Models of NVIDIA Tensor Cores - 专知论文

会员服务 ·

0

Accurate Models of NVIDIA Tensor Cores

翻译：NVIDIA Tensor Core 的精确模型

Faizan A. Khattak,Mantas Mikaitis

Matrix multiplication is a fundamental operation in both training of neural networks and inference. To accelerate matrix multiplication, Graphical Processing Units (GPUs) provide it implemented in hardware. Due to the increased throughput over the software-based matrix multiplication, the multipliers are increasingly used outside of AI, to accelerate various applications in scientific computing. However, matrix multipliers targeted at AI are at present not compliant with IEEE 754 floating-point arithmetic behaviour, with different vendors offering different numerical features. This leads to non-reproducible results across different generations of GPU architectures, at the matrix multiply-accumulate instruction level. To study numerical characteristics of matrix multipliers -- such as rounding behaviour, accumulator width, normalization points, extra carry bits, and others -- test vectors are typically constructed. Yet, these vectors may or may not distinguish between different hardware models, and due to limited hardware availability, their reliability across many different platforms remains largely untested. We present software models for emulating the inner product behaviour of low- and mixed-precision matrix multipliers in the V100, A100, H100 and B200 data center GPUs in most supported input formats of interest to mixed-precision algorithm developers: 8-, 16-, and 19-bit floating point.

翻译：矩阵乘法是神经网络训练与推理中的基本运算。为加速矩阵乘法，图形处理器（GPU）在硬件层面实现了该运算。由于相较于软件实现的矩阵乘法具有更高吞吐量，矩阵乘法器正越来越多地被用于人工智能以外的领域，以加速科学计算中的各类应用。然而，当前面向AI的矩阵乘法器并不符合IEEE 754浮点算术规范，不同厂商提供的数值特性各异。这导致在不同代际的GPU架构中，矩阵乘加指令级别的结果不可复现。为研究矩阵乘法器的数值特性（如舍入行为、累加器宽度、归一化点、额外进位位等），通常需构造测试向量。但这些向量可能无法区分不同的硬件模型，且受限于硬件可用性，其跨平台的可靠性在很大程度上未经验证。我们针对V100、A100、H100和B200数据中心GPU中低精度与混合精度矩阵乘法器的内积行为，提供了软件模型。该模型覆盖混合精度算法开发者关注的多数受支持输入格式：8位、16位及19位浮点数。

0

相关内容

【国家标准意见稿】图神经网络模型

【国家标准意见稿】图神经网络模型

专知会员服务

47+阅读 · 2024年10月28日

大模型在图上怎么做？北邮等最新《图基础模型》综述，详述GFMs关键技术

大模型在图上怎么做？北邮等最新《图基础模型》综述，详述GFMs关键技术

专知会员服务

60+阅读 · 2023年10月19日

人工智能专题研究：光芯片——AI时代“芯”核心，57页ppt

人工智能专题研究：光芯片——AI时代“芯”核心，57页ppt

专知会员服务

49+阅读 · 2023年7月28日

【阿姆斯特丹博士论文】GPU图算法性能分析与预测，227页pdf

【阿姆斯特丹博士论文】GPU图算法性能分析与预测，227页pdf

专知会员服务

40+阅读 · 2023年4月10日

GNN如何建模时空？伦敦玛丽女王大学《时空图神经网络》综述，简明阐述时空图神经网络方法

GNN如何建模时空？伦敦玛丽女王大学《时空图神经网络》综述，简明阐述时空图神经网络方法

专知会员服务

74+阅读 · 2023年2月1日

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

专知会员服务

46+阅读 · 2022年5月27日

【ICML2021】矩阵乘法无需相乘，速度提升100倍：MIT大佬的新研究

专知会员服务

22+阅读 · 2021年9月3日

AI芯片发展现状及前景分析

专知会员服务

66+阅读 · 2021年5月2日

【BAAI 北京智源大会】类脑神经形态智能芯片，蔡一茂 / 北京大学教授，智源研究员

【BAAI 北京智源大会】类脑神经形态智能芯片，蔡一茂 / 北京大学教授，智源研究员

专知会员服务

17+阅读 · 2019年11月19日

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

专知会员服务

10+阅读 · 2019年11月13日

图神经网络模型集合GraphGallery，TensorFLow&PyTorch一并实现

图神经网络模型集合GraphGallery，TensorFLow&PyTorch一并实现

专知

20+阅读 · 2020年10月5日

面试题：请简要介绍下tensorflow的计算图

面试题：请简要介绍下tensorflow的计算图

七月在线实验室

14+阅读 · 2019年6月10日

图神经网络开发必备组件，NetworkX、稀疏矩阵、稀疏Tensor等

图神经网络开发必备组件，NetworkX、稀疏矩阵、稀疏Tensor等

专知

48+阅读 · 2019年5月10日

深度学习时代的图模型，清华发文综述图网络

深度学习时代的图模型，清华发文综述图网络

GAN生成式对抗网络

13+阅读 · 2018年12月23日

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

AI研习社

14+阅读 · 2018年2月17日

展望：模型驱动的深度学习

展望：模型驱动的深度学习

人工智能学家

12+阅读 · 2018年1月23日

【深度学习】深度学习的核心：掌握训练数据的方法

【深度学习】深度学习的核心：掌握训练数据的方法

产业智能官

12+阅读 · 2018年1月14日

深度学习的GPU：深度学习中使用GPU的经验和建议

深度学习的GPU：深度学习中使用GPU的经验和建议

数据挖掘入门与实战

11+阅读 · 2018年1月3日

经验 | Pytorch还是Tensorflow？英伟达工程师帮你总结了

经验 | Pytorch还是Tensorflow？英伟达工程师帮你总结了

AI100

10+阅读 · 2017年10月27日

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

机器人圈

35+阅读 · 2017年7月18日

天元数学交流项目图像处理中的数学理论及方法研讨会

国家自然科学基金

9+阅读 · 2017年12月31日

基于GPU的几类分数阶微分方程的并行算法研究及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

神经形态多核处理器的架构模型研究

国家自然科学基金

3+阅读 · 2015年12月31日

大视场综合孔径成像优化的研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

超分辨率中的矩阵值算子学习问题

国家自然科学基金

1+阅读 · 2014年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

部分特征值统计量的中心极限定理及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

PipeWeave: Synergizing Analytical and Learning Models for Unified GPU Performance Prediction

Arxiv

0+阅读 · 4月28日

The Landscape of GPU-Centric Communication

Arxiv

0+阅读 · 4月23日

GPU Acceleration of Sparse Fully Homomorphic Encrypted DNNs

Arxiv

0+阅读 · 4月13日

Accelerating High-Order Finite Element Simulations at Extreme Scale with FP64 Tensor Cores

Arxiv

0+阅读 · 4月9日

CuTeGen: An LLM-Based Agentic Framework for Generation and Optimization of High-Performance GPU Kernels using CuTe

Arxiv

0+阅读 · 4月1日

RSR-core: A High-Performance Engine for Low-Bit Matrix-Vector Multiplication

Arxiv

0+阅读 · 3月29日

Multi-GPU Quantum Circuit Simulation and the Impact of Network Performance

Arxiv

0+阅读 · 3月11日

Accelerating High-Order Finite Element Simulations at Extreme Scale with FP64 Tensor Cores

Arxiv

0+阅读 · 3月10日

Spark: Modular Spiking Neural Networks

Arxiv

0+阅读 · 2月25日

The Landscape of GPU-Centric Communication

Arxiv

0+阅读 · 2月22日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

1+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

3+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

2+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

【国家标准意见稿】图神经网络模型

【国家标准意见稿】图神经网络模型

专知会员服务

47+阅读 · 2024年10月28日

大模型在图上怎么做？北邮等最新《图基础模型》综述，详述GFMs关键技术

大模型在图上怎么做？北邮等最新《图基础模型》综述，详述GFMs关键技术

专知会员服务

60+阅读 · 2023年10月19日

人工智能专题研究：光芯片——AI时代“芯”核心，57页ppt

人工智能专题研究：光芯片——AI时代“芯”核心，57页ppt

专知会员服务

49+阅读 · 2023年7月28日

【阿姆斯特丹博士论文】GPU图算法性能分析与预测，227页pdf

【阿姆斯特丹博士论文】GPU图算法性能分析与预测，227页pdf

专知会员服务

40+阅读 · 2023年4月10日

GNN如何建模时空？伦敦玛丽女王大学《时空图神经网络》综述，简明阐述时空图神经网络方法

GNN如何建模时空？伦敦玛丽女王大学《时空图神经网络》综述，简明阐述时空图神经网络方法

专知会员服务

74+阅读 · 2023年2月1日

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

专知会员服务

46+阅读 · 2022年5月27日

【ICML2021】矩阵乘法无需相乘，速度提升100倍：MIT大佬的新研究

专知会员服务

22+阅读 · 2021年9月3日

AI芯片发展现状及前景分析

专知会员服务

66+阅读 · 2021年5月2日

【BAAI 北京智源大会】类脑神经形态智能芯片，蔡一茂 / 北京大学教授，智源研究员

【BAAI 北京智源大会】类脑神经形态智能芯片，蔡一茂 / 北京大学教授，智源研究员

专知会员服务

17+阅读 · 2019年11月19日

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

专知会员服务

10+阅读 · 2019年11月13日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

图神经网络模型集合GraphGallery，TensorFLow&PyTorch一并实现

图神经网络模型集合GraphGallery，TensorFLow&PyTorch一并实现

专知

20+阅读 · 2020年10月5日

面试题：请简要介绍下tensorflow的计算图

面试题：请简要介绍下tensorflow的计算图

七月在线实验室

14+阅读 · 2019年6月10日

图神经网络开发必备组件，NetworkX、稀疏矩阵、稀疏Tensor等

图神经网络开发必备组件，NetworkX、稀疏矩阵、稀疏Tensor等

专知

48+阅读 · 2019年5月10日

深度学习时代的图模型，清华发文综述图网络

深度学习时代的图模型，清华发文综述图网络

GAN生成式对抗网络

13+阅读 · 2018年12月23日

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

AI研习社

14+阅读 · 2018年2月17日

展望：模型驱动的深度学习

展望：模型驱动的深度学习

人工智能学家

12+阅读 · 2018年1月23日

【深度学习】深度学习的核心：掌握训练数据的方法

【深度学习】深度学习的核心：掌握训练数据的方法

产业智能官

12+阅读 · 2018年1月14日

深度学习的GPU：深度学习中使用GPU的经验和建议

深度学习的GPU：深度学习中使用GPU的经验和建议

数据挖掘入门与实战

11+阅读 · 2018年1月3日

经验 | Pytorch还是Tensorflow？英伟达工程师帮你总结了

经验 | Pytorch还是Tensorflow？英伟达工程师帮你总结了

AI100

10+阅读 · 2017年10月27日

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

机器人圈

35+阅读 · 2017年7月18日

相关论文

PipeWeave: Synergizing Analytical and Learning Models for Unified GPU Performance Prediction

Arxiv

0+阅读 · 4月28日

The Landscape of GPU-Centric Communication

Arxiv

0+阅读 · 4月23日

GPU Acceleration of Sparse Fully Homomorphic Encrypted DNNs

Arxiv

0+阅读 · 4月13日

Accelerating High-Order Finite Element Simulations at Extreme Scale with FP64 Tensor Cores

Arxiv

0+阅读 · 4月9日

CuTeGen: An LLM-Based Agentic Framework for Generation and Optimization of High-Performance GPU Kernels using CuTe

Arxiv

0+阅读 · 4月1日

RSR-core: A High-Performance Engine for Low-Bit Matrix-Vector Multiplication

Arxiv

0+阅读 · 3月29日

Multi-GPU Quantum Circuit Simulation and the Impact of Network Performance

Arxiv

0+阅读 · 3月11日

Accelerating High-Order Finite Element Simulations at Extreme Scale with FP64 Tensor Cores

Arxiv

0+阅读 · 3月10日

Spark: Modular Spiking Neural Networks

Arxiv

0+阅读 · 2月25日

The Landscape of GPU-Centric Communication

Arxiv

0+阅读 · 2月22日

相关基金

天元数学交流项目图像处理中的数学理论及方法研讨会

国家自然科学基金

9+阅读 · 2017年12月31日

基于GPU的几类分数阶微分方程的并行算法研究及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

神经形态多核处理器的架构模型研究

国家自然科学基金

3+阅读 · 2015年12月31日

大视场综合孔径成像优化的研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

超分辨率中的矩阵值算子学习问题

国家自然科学基金

1+阅读 · 2014年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

部分特征值统计量的中心极限定理及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员