In recent years, novel AI accelerators have emerged as promising alternatives to GPU for AI model training and inference tasks. One such accelerator, the Cerebras CS-3, achieves strong performance on large model training as well as scientific applications like molecular dynamics simulations. While dense compute workloads have been thoroughly explored for the CS-3, its potential for sparse workloads has not been fully examined. Applications requiring sparse linear algebra kernels, such as GNNs, linear solvers, and recommendation systems, could achieve good performance on a dataflow accelerator like the CS-3. In this work, we explore two key sparse linear algebra kernels, sparse-dense matrix multiplication (SpMM) and sampled dense-dense matrix multiplication (SDDMM), on the Cerebras CS-3. We propose low-level CS-3 kernel designs for these operations and optimize our designs to improve I/O performance, memory footprint, and scalability to large matrices. Our evaluation examines memory footprint and SpMM/SDDMM speedup relative to CPU. The evaluation suggests that the CS-3 can outperform CPU by 100$\times$ for SpMM with 90\% sparse matrices with performance improving as sparse matrix dimensionality increases. SDDMM on CS-3 can outperform CPU 20$\times$ for 90\% sparse matrices. We additionally find that as sparsity increases to beyond 99\%, the CS-3 suffers from performance degradation that makes it slower than CPU for SpMM.


翻译:近年来,新型AI加速器作为GPU在AI模型训练与推理任务中的替代方案逐渐崭露头角。其中,Cerebras CS-3加速器在大规模模型训练及分子动力学模拟等科学应用中均展现出强劲性能。尽管CS-3的密集计算任务已得到充分研究,但其在稀疏计算场景中的潜力尚未被完全挖掘。需要稀疏线性代数核心的应用(如图神经网络GNNs、线性求解器与推荐系统)有望在CS-3这类数据流加速器上获得优异表现。本研究针对Cerebras CS-3上的两种关键稀疏线性代数核心——稀疏-稠密矩阵乘法(SpMM)与采样稠密-稠密矩阵乘法(SDDMM)展开探索。我们提出了这些运算的低层级CS-3核心设计方案,并通过优化设计改善了输入/输出性能、内存占用及面向大规模矩阵的可扩展性。实验评估重点关注内存占用以及SpMM/SDDMM相对于CPU的加速比。结果表明:对于含90%稀疏元素的矩阵,CS-3在SpMM运算中可达到CPU的100倍加速,且加速比随稀疏矩阵维度增加而提升;在90%稀疏矩阵的SDDMM运算中,CS-3可实现CPU 20倍的加速比。此外研究发现,当稀疏度超过99%时,CS-3会出现性能退化,导致SpMM运算速度低于CPU。

0
下载
关闭预览

相关内容

综述:军事应用中使用的一些重要算法
专知
13+阅读 · 2022年7月3日
【NeurIPS 2020】核基渐进蒸馏加法器神经网络
专知
13+阅读 · 2020年10月19日
类脑计算的前沿论文,看我们推荐的这7篇
人工智能前沿讲习班
21+阅读 · 2019年1月7日
【深度学习】深度学习的核心:掌握训练数据的方法
产业智能官
12+阅读 · 2018年1月14日
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关主题
最新内容
认知战与交战性质的改变:神经战略视角
专知会员服务
5+阅读 · 5月8日
人工智能如何变革军事C5ISR作战
专知会员服务
12+阅读 · 5月8日
相关VIP内容
相关基金
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员