基于昇腾AI加速器的并行扫描算法 (Parallel Scan on Ascend AI Accelerators) - 专知论文

会员服务 ·

0

单元 · 算法 · AI · 并行 · 操作 ·

Parallel Scan on Ascend AI Accelerators

翻译：基于昇腾AI加速器的并行扫描算法

Bartłomiej Wróblewski,Gioele Gottardo,Anastasios Zouzias

from arxiv, Extended abstract of IPDPS 2025 with additional improvements

We design and implement parallel prefix sum (scan) algorithms using Ascend AI accelerators. Ascend accelerators feature specialized computing units: the cube units for efficient matrix multiplication and the vector units for optimized vector operations. A key feature of the proposed scan algorithms is their extensive use of matrix multiplications and accumulations enabled by the cube unit. To showcase the effectiveness of these algorithms, we also implement and evaluate several scan-based operators commonly used in AI workloads, including sorting, tensor masking, and top-$k$ / top-$p$ sampling. Our single-core results demonstrate substantial performance improvements, with speedups ranging from $5\times$ to $9.6\times$ compared to vector-only implementations for sufficiently large input lengths. Additionally, we present a multi-core scan algorithm that fully utilizes both the cube and vector units of Ascend, reaching up to 74.9\% of the memory bandwidth achieved by memory copy. Furthermore, our radix sort implementation, which utilizes matrix multiplications for its parallel splits, showcases the potential of matrix engines to enhance complex operations, offering up to $3.3\times$ speedup over the vector-only baseline.

翻译：我们设计并实现了基于昇腾AI加速器的并行前缀和（扫描）算法。昇腾加速器具备专用计算单元：用于高效矩阵运算的立方体计算单元以及用于优化向量操作的向量计算单元。所提扫描算法的核心特征在于充分利用立方体计算单元实现的矩阵乘法与累加运算。为验证算法有效性，我们还实现并评估了AI工作负载中常用的若干基于扫描的算子，包括排序、张量掩码及top-$k$/top-$p$采样。单核测试结果表明，在输入长度足够大时，相比纯向量实现可获得5倍至9.6倍的显著性能提升。此外，我们提出了一种多核扫描算法，能够同时充分利用昇腾加速器的立方体与向量计算单元，其内存带宽利用率最高可达内存拷贝操作的74.9%。特别地，我们利用矩阵乘法实现并行分割的基数排序方案，展现了矩阵计算引擎增强复杂运算的潜力，相比纯向量基线最高可获得3.3倍的加速比。

0

相关内容

【2023新书】并行算法，Parallel Algorithms ，400页pdf

【2023新书】并行算法，Parallel Algorithms ，400页pdf

专知会员服务

72+阅读 · 2023年8月6日

MIT发布《人工智能加速器》2022年度综述论文，详解80+类AI芯片性能优劣

MIT发布《人工智能加速器》2022年度综述论文，详解80+类AI芯片性能优劣

专知会员服务

78+阅读 · 2022年10月12日

强化学习发现矩阵乘法算法，DeepMind再登Nature封面推出AlphaTensor

强化学习发现矩阵乘法算法，DeepMind再登Nature封面推出AlphaTensor

专知会员服务

39+阅读 · 2022年10月6日

MIT《人工智能和机器人的高效计算: 从硬件加速器到算法设计》60页PPT

MIT《人工智能和机器人的高效计算: 从硬件加速器到算法设计》60页PPT

专知会员服务

43+阅读 · 2022年3月30日

【博士论文】基于冲量的加速优化算法

【博士论文】基于冲量的加速优化算法

专知会员服务

28+阅读 · 2021年11月29日

【2021新书】并行高性能计算，705页pdf，Parallel and High Performance Computing

【2021新书】并行高性能计算，705页pdf，Parallel and High Performance Computing

专知会员服务

108+阅读 · 2021年10月30日

MIT发布《人工智能加速器》2021年度综述论文，详解80+类AI芯片性能优劣

专知会员服务

65+阅读 · 2021年9月21日

【ICML2021】矩阵乘法无需相乘，速度提升100倍：MIT大佬的新研究

专知会员服务

22+阅读 · 2021年9月3日

【CVPR2021】加法器神经网络（AdderNet）单图像超分辨率

专知会员服务

18+阅读 · 2021年3月16日

【硬核书】可扩展机器学习：并行分布式方法

【硬核书】可扩展机器学习：并行分布式方法

专知会员服务

86+阅读 · 2020年5月23日

综述：军事应用中使用的一些重要算法

综述：军事应用中使用的一些重要算法

专知

12+阅读 · 2022年7月3日

将U-Net用于图像去雾任务，一种具有密集特征融合的多尺度增强去雾网络 | CVPR2020

将U-Net用于图像去雾任务，一种具有密集特征融合的多尺度增强去雾网络 | CVPR2020

CVer

12+阅读 · 2020年6月30日

最新基于FPGA的深度学习加速器综述论文（附下载）

最新基于FPGA的深度学习加速器综述论文（附下载）

专知

23+阅读 · 2019年1月17日

论文公布啦！腾讯AI Lab开源最大规模多标签图像数据集，刷新行业数据集基准

论文公布啦！腾讯AI Lab开源最大规模多标签图像数据集，刷新行业数据集基准

专知

10+阅读 · 2019年1月8日

报名 | GPU编程入门课程：使用CUDA C/C++进行并行计算加速

报名 | GPU编程入门课程：使用CUDA C/C++进行并行计算加速

PaperWeekly

10+阅读 · 2018年6月4日

最新｜深度离散哈希算法，可用于图像检索！

最新｜深度离散哈希算法，可用于图像检索！

全球人工智能

14+阅读 · 2017年12月15日

并行算法演进，从MapReduce到MPI

并行算法演进，从MapReduce到MPI

凡人机器学习

10+阅读 · 2017年11月5日

业界 | 腾讯 AI Lab 斩获 MSCOCO Captions 冠军，领衔图像描述生成技术

业界 | 腾讯 AI Lab 斩获 MSCOCO Captions 冠军，领衔图像描述生成技术

AI科技评论

13+阅读 · 2017年11月4日

Spark机器学习：矩阵及推荐算法

Spark机器学习：矩阵及推荐算法

LibRec智能推荐

16+阅读 · 2017年8月3日

从浅层模型到深度模型：概览机器学习优化算法

从浅层模型到深度模型：概览机器学习优化算法

机器之心

27+阅读 · 2017年7月9日

多层时空并行 Schwarz 算法的研究

国家自然科学基金

3+阅读 · 2017年12月31日

求解时间依赖问题的隐式时空并行 Schwarz 算法研究

国家自然科学基金

0+阅读 · 2017年12月31日

模拟人眼视觉特性的高性能矢量多边形叠加分析算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

顾及扫描上下文的预测与判决相结合的点云在线分类方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于GPU的几类分数阶微分方程的并行算法研究及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

云计算环境下面向大数据的在线聚集并行优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

量子算法加速性差异研究及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的高时效并行计算机系统结构与技术

国家自然科学基金

0+阅读 · 2014年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

求解非线性方程的加速迭代算法

国家自然科学基金

0+阅读 · 2014年12月31日

Messaging-based Adaptive Vector Computing (MAVeC) Accelerator for AI Workloads

Arxiv

0+阅读 · 2月4日

Evolutionary Mapping of Neural Networks to Spatial Accelerators

Arxiv

0+阅读 · 2月4日

Parallel-Probe: Towards Efficient Parallel Thinking via 2D Probing

Arxiv

0+阅读 · 2月3日

Leveraging ASIC AI Chips for Homomorphic Encryption

Arxiv

0+阅读 · 1月31日

Mixed-Precision Training and Compilation for RRAM-based Computing-in-Memory Accelerators

Arxiv

0+阅读 · 1月30日

Dual-pronged deep learning preprocessing on heterogeneous platforms with CPU, Accelerator and CSD

Arxiv

0+阅读 · 1月29日

W4A16 Mixed-Precision Matrix Multiplication on Decoupled Architecture: Kernel Design and Memory Bottleneck Analysis for Ascend NPUs

Arxiv

0+阅读 · 1月23日

The Quest for Reliable AI Accelerators: Cross-Layer Evaluation and Design Optimization

Arxiv

0+阅读 · 1月20日

Enabling Population-Level Parallelism in Tree-Based Genetic Programming for GPU Acceleration

Arxiv

0+阅读 · 1月13日

Memory-Guided Unified Hardware Accelerator for Mixed-Precision Scientific Computing

Arxiv

0+阅读 · 1月8日

VIP会员

文章信息

相关主题

相关VIP内容

【2023新书】并行算法，Parallel Algorithms ，400页pdf

【2023新书】并行算法，Parallel Algorithms ，400页pdf

专知会员服务

72+阅读 · 2023年8月6日

MIT发布《人工智能加速器》2022年度综述论文，详解80+类AI芯片性能优劣

MIT发布《人工智能加速器》2022年度综述论文，详解80+类AI芯片性能优劣

专知会员服务

78+阅读 · 2022年10月12日

强化学习发现矩阵乘法算法，DeepMind再登Nature封面推出AlphaTensor

强化学习发现矩阵乘法算法，DeepMind再登Nature封面推出AlphaTensor

专知会员服务

39+阅读 · 2022年10月6日

MIT《人工智能和机器人的高效计算: 从硬件加速器到算法设计》60页PPT

MIT《人工智能和机器人的高效计算: 从硬件加速器到算法设计》60页PPT

专知会员服务

43+阅读 · 2022年3月30日

【博士论文】基于冲量的加速优化算法

【博士论文】基于冲量的加速优化算法

专知会员服务

28+阅读 · 2021年11月29日

【2021新书】并行高性能计算，705页pdf，Parallel and High Performance Computing

【2021新书】并行高性能计算，705页pdf，Parallel and High Performance Computing

专知会员服务

108+阅读 · 2021年10月30日

MIT发布《人工智能加速器》2021年度综述论文，详解80+类AI芯片性能优劣

专知会员服务

65+阅读 · 2021年9月21日

【ICML2021】矩阵乘法无需相乘，速度提升100倍：MIT大佬的新研究

专知会员服务

22+阅读 · 2021年9月3日

【CVPR2021】加法器神经网络（AdderNet）单图像超分辨率

专知会员服务

18+阅读 · 2021年3月16日

【硬核书】可扩展机器学习：并行分布式方法

【硬核书】可扩展机器学习：并行分布式方法

专知会员服务

86+阅读 · 2020年5月23日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人机与战争：被忽视的环境影响及无人机保护潜力》

俄罗斯规划未来无人机驱动军队

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

《人工智能、武器与影响力：前沿模型在模拟核危机中展现复杂推理》2026最新46页报告

相关资讯

综述：军事应用中使用的一些重要算法

综述：军事应用中使用的一些重要算法

专知

12+阅读 · 2022年7月3日

将U-Net用于图像去雾任务，一种具有密集特征融合的多尺度增强去雾网络 | CVPR2020

将U-Net用于图像去雾任务，一种具有密集特征融合的多尺度增强去雾网络 | CVPR2020

CVer

12+阅读 · 2020年6月30日

最新基于FPGA的深度学习加速器综述论文（附下载）

最新基于FPGA的深度学习加速器综述论文（附下载）

专知

23+阅读 · 2019年1月17日

论文公布啦！腾讯AI Lab开源最大规模多标签图像数据集，刷新行业数据集基准

论文公布啦！腾讯AI Lab开源最大规模多标签图像数据集，刷新行业数据集基准

专知

10+阅读 · 2019年1月8日

报名 | GPU编程入门课程：使用CUDA C/C++进行并行计算加速

报名 | GPU编程入门课程：使用CUDA C/C++进行并行计算加速

PaperWeekly

10+阅读 · 2018年6月4日

最新｜深度离散哈希算法，可用于图像检索！

最新｜深度离散哈希算法，可用于图像检索！

全球人工智能

14+阅读 · 2017年12月15日

并行算法演进，从MapReduce到MPI

并行算法演进，从MapReduce到MPI

凡人机器学习

10+阅读 · 2017年11月5日

业界 | 腾讯 AI Lab 斩获 MSCOCO Captions 冠军，领衔图像描述生成技术

业界 | 腾讯 AI Lab 斩获 MSCOCO Captions 冠军，领衔图像描述生成技术

AI科技评论

13+阅读 · 2017年11月4日

Spark机器学习：矩阵及推荐算法

Spark机器学习：矩阵及推荐算法

LibRec智能推荐

16+阅读 · 2017年8月3日

从浅层模型到深度模型：概览机器学习优化算法

从浅层模型到深度模型：概览机器学习优化算法

机器之心

27+阅读 · 2017年7月9日

相关论文

Messaging-based Adaptive Vector Computing (MAVeC) Accelerator for AI Workloads

Arxiv

0+阅读 · 2月4日

Evolutionary Mapping of Neural Networks to Spatial Accelerators

Arxiv

0+阅读 · 2月4日

Parallel-Probe: Towards Efficient Parallel Thinking via 2D Probing

Arxiv

0+阅读 · 2月3日

Leveraging ASIC AI Chips for Homomorphic Encryption

Arxiv

0+阅读 · 1月31日

Mixed-Precision Training and Compilation for RRAM-based Computing-in-Memory Accelerators

Arxiv

0+阅读 · 1月30日

Dual-pronged deep learning preprocessing on heterogeneous platforms with CPU, Accelerator and CSD

Arxiv

0+阅读 · 1月29日

W4A16 Mixed-Precision Matrix Multiplication on Decoupled Architecture: Kernel Design and Memory Bottleneck Analysis for Ascend NPUs

Arxiv

0+阅读 · 1月23日

The Quest for Reliable AI Accelerators: Cross-Layer Evaluation and Design Optimization

Arxiv

0+阅读 · 1月20日

Enabling Population-Level Parallelism in Tree-Based Genetic Programming for GPU Acceleration

Arxiv

0+阅读 · 1月13日

Memory-Guided Unified Hardware Accelerator for Mixed-Precision Scientific Computing

Arxiv

0+阅读 · 1月8日

相关基金

多层时空并行 Schwarz 算法的研究

国家自然科学基金

3+阅读 · 2017年12月31日

求解时间依赖问题的隐式时空并行 Schwarz 算法研究

国家自然科学基金

0+阅读 · 2017年12月31日

模拟人眼视觉特性的高性能矢量多边形叠加分析算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

顾及扫描上下文的预测与判决相结合的点云在线分类方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于GPU的几类分数阶微分方程的并行算法研究及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

云计算环境下面向大数据的在线聚集并行优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

量子算法加速性差异研究及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的高时效并行计算机系统结构与技术

国家自然科学基金

0+阅读 · 2014年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

求解非线性方程的加速迭代算法

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员