In this paper, we propose a method for emulating double-precision general matrix--matrix multiplication (DGEMM), a fundamental and performance-critical kernel in many high-performance computing applications. Ozaki-I and Ozaki-II are established DGEMM emulation schemes via low-precision matrix multiply-accumulate (MMA) units. For the Ozaki-I scheme, INT8-, FP8-, and FP16-based implementations have been proposed, all of which can be realized based on the same underlying algorithmic structure. In contrast, although INT8-based implementations of the Ozaki-II scheme have been reported, the original algorithm cannot be directly adapted to exploit FP8 MMA units. In several recent architectures, such as NVIDIA Blackwell Ultra and NVIDIA Rubin, INT8 performance has been reduced, making reliance on INT8 alone insufficient. Therefore, we introduce a novel technique to demonstrate DGEMM emulation based on the Ozaki-II scheme that operates on FP8 MMA units. Compared to the FP8-based Ozaki-I scheme, our method significantly reduces the computational cost and enables efficient FP64 emulation.


翻译:本文提出了一种双精度通用矩阵乘法模拟方法,该方法在许多高性能计算应用中属于基础且性能关键的核心操作。Ozaki-I和Ozaki-II是通过低精度矩阵乘累加单元实现双精度矩阵乘法模拟的经典方案。针对Ozaki-I方案,已有基于INT8、FP8和FP16的实现,这些实现均可基于相同的底层算法结构完成。相比之下,尽管已有针对Ozaki-II方案的INT8实现报道,但原始算法无法直接适配以利用FP8乘累加单元。在诸如NVIDIA Blackwell Ultra和NVIDIA Rubin等近期架构中,INT8性能有所下降,使得仅依赖INT8已显不足。为此,我们引入一项新技术,展示基于Ozaki-II方案且运行在FP8乘累加单元上的双精度矩阵乘法模拟。与基于FP8的Ozaki-I方案相比,我们的方法大幅降低了计算成本,并实现了高效的FP64模拟。

0
下载
关闭预览

相关内容

《通信和导航中的优化算法设计》美国空军研究实验室
专知会员服务
41+阅读 · 2022年8月19日
【斯坦福大学】矩阵对策的协调方法,89页pdf
专知会员服务
27+阅读 · 2020年9月18日
专知会员服务
46+阅读 · 2020年7月29日
综述:军事应用中使用的一些重要算法
专知
13+阅读 · 2022年7月3日
pytorch中六种常用的向量相似度评估方法
极市平台
22+阅读 · 2021年12月9日
简述多种降维算法
算法与数学之美
11+阅读 · 2018年9月23日
超全总结:神经网络加速之量化模型 | 附带代码
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
推荐|caffe-orc主流ocr算法:CNN+BLSTM+CTC架构实现!
全球人工智能
19+阅读 · 2017年10月29日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 从问答到任务完成:Agent系统与Harness设计
专知会员服务
1+阅读 · 今天16:54
Agentic RL:框架、实践与长程智能体训练
专知会员服务
1+阅读 · 今天16:52
重新思考无人机时代的生存能力
专知会员服务
5+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
4+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
4+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
4+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
6+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员