Ootomo, Ozaki, and Yokota [Int. J. High Perform. Comput. Appl., 38 (2024), p. 297-313] have proposed a strategy to recast a floating-point matrix multiplication in terms of integer matrix products. The factors A and B are split into integer slices, the product of these slices is computed exactly, and AB is approximated by accumulating these integer products in floating-point arithmetic. This technique is particularly well suited to mixed-precision matrix multiply-accumulate units with integer support, such as the NVIDIA tensor cores or the AMD matrix cores. The number of slices allows for performance-accuracy tradeoffs: more slices yield better accuracy but require more multiplications, which in turn reduce performance. We propose an inexpensive way to estimate the minimum number of multiplications needed to achieve a prescribed level of accuracy. Our error analysis shows that the algorithm may become inaccurate (or inefficient) if rows of A or columns of B are badly scaled. We perform a range of numerical experiments, both in simulation and on the latest NVIDIA GPUs, that confirm the analysis and illustrate strengths and weaknesses of the algorithm.


翻译:Ootomo、Ozaki 和 Yokota [Int. J. High Perform. Comput. Appl., 38 (2024), p. 297-313] 提出了一种将浮点矩阵乘法转化为整数矩阵乘积的策略。因子 A 和 B 被拆分为整数切片,这些切片的乘积被精确计算,而 AB 则通过在浮点运算中累加这些整数乘积来近似。该技术特别适用于支持整数的混合精度矩阵乘累加单元,例如 NVIDIA tensor cores 或 AMD matrix cores。切片数量允许在性能与精度之间进行权衡:更多切片能带来更好的精度,但需要更多乘法运算,从而降低性能。我们提出了一种低成本方法,用于估计达到指定精度所需的最小乘法次数。我们的误差分析表明,如果 A 的行或 B 的列缩放不良,该算法可能会变得不准确(或低效)。我们进行了一系列数值实验,包括模拟实验和在最新 NVIDIA GPU 上的实验,这些实验证实了分析结果,并展示了该算法的优缺点。

0
下载
关闭预览

相关内容

博客 | 机器学习中的数学基础(凸优化)
AI研习社
14+阅读 · 2018年12月16日
简述多种降维算法
算法与数学之美
11+阅读 · 2018年9月23日
【干货】理解深度学习中的矩阵运算
专知
12+阅读 · 2018年2月12日
一文读懂FM算法优势,并用python实现!(附代码)
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
【论文】深度学习的数学解释
机器学习研究会
10+阅读 · 2017年12月15日
干货|掌握机器学习数学基础之优化[1](重点知识)
机器学习研究会
10+阅读 · 2017年11月19日
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
ICML2026 | 重新思考顺序知识编辑中的正则化
专知会员服务
4+阅读 · 5月27日
《用于兵力发展选项优先排序的成本效益模型》
AutoResearch AI综述:迈向AI驱动的科学发现自动化
《Palantir边缘人工智能》手册
专知会员服务
23+阅读 · 5月26日
美军“国防自主作战群”(DAWG)概念解析
专知会员服务
5+阅读 · 5月26日
“史诗怒火”行动中的无人机与反无人机作战
专知会员服务
17+阅读 · 5月25日
相关VIP内容
相关资讯
博客 | 机器学习中的数学基础(凸优化)
AI研习社
14+阅读 · 2018年12月16日
简述多种降维算法
算法与数学之美
11+阅读 · 2018年9月23日
【干货】理解深度学习中的矩阵运算
专知
12+阅读 · 2018年2月12日
一文读懂FM算法优势,并用python实现!(附代码)
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
【论文】深度学习的数学解释
机器学习研究会
10+阅读 · 2017年12月15日
干货|掌握机器学习数学基础之优化[1](重点知识)
机器学习研究会
10+阅读 · 2017年11月19日
相关基金
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员