Tensor Slicing and Optimization for Multicore NPUs - 专知论文

会员服务 ·

0

NPU · 内存 · 并行 · CNN · 单元 ·

2023 年 4 月 6 日

Tensor Slicing and Optimization for Multicore NPUs

翻译：面向多核NPU的张量切片与优化

Rafael Sousa,Marcio Pereira,Yongin Kwon,Taeho Kim,Namsoon Jung,Chang Soo Kim,Michael Frank,Guido Araujo

Although code generation for Convolution Neural Network (CNN) models has been extensively studied, performing efficient data slicing and parallelization for highly-constrai\-ned Multicore Neural Processor Units (NPUs) is still a challenging problem. Given the size of convolutions' input/output tensors and the small footprint of NPU on-chip memories, minimizing memory transactions while maximizing parallelism and MAC utilization are central to any effective solution. This paper proposes a TensorFlow XLA/LLVM compiler optimization pass for Multicore NPUs, called Tensor Slicing Optimization (TSO), which: (a) maximizes convolution parallelism and memory usage across NPU cores; and (b) reduces data transfers between host and NPU on-chip memories by using DRAM memory burst time estimates to guide tensor slicing. To evaluate the proposed approach, a set of experiments was performed using the NeuroMorphic Processor (NMP), a multicore NPU containing 32 RISC-V cores extended with novel CNN instructions. Experimental results show that TSO is capable of identifying the best tensor slicing that minimizes execution time for a set of CNN models. Speed-ups of up to 21.7\% result when comparing the TSO burst-based technique to a no-burst data slicing approach. To validate the generality of the TSO approach, the algorithm was also ported to the Glow Machine Learning framework. The performance of the models were measured on both Glow and TensorFlow XLA/LLVM compilers, revealing similar results.

翻译：尽管卷积神经网络（CNN）模型的代码生成已被广泛研究，但在高度约束的多核神经处理单元（NPU）上实现高效的数据切片与并行化仍具挑战性。鉴于卷积输入/输出张量的规模以及NPU片上存储器的有限容量，如何在最大化并行性与MAC利用率的同时最小化内存事务，是任何有效解决方案的核心问题。本文提出一种面向多核NPU的TensorFlow XLA/LLVM编译器优化步骤，称为张量切片优化（TSO），该方案能够：（a）最大化跨NPU核的卷积并行性与内存使用效率；（b）通过利用DRAM突发传输时间估计指导张量切片，减少主机与NPU片上存储器间的数据传输。为评估所提方法，我们使用神经形态处理器（NMP）——一种包含32个扩展了新型CNN指令的RISC-V核的多核NPU——开展了一系列实验。实验结果表明，TSO能够识别最佳张量切片方案，从而最小化一组CNN模型的执行时间。与无突发数据切片方法相比，基于TSO突发传输的技术可实现高达21.7%的加速比。为验证TSO方法的普适性，该算法还被移植至Glow机器学习框架。在Glow与TensorFlow XLA/LLVM两种编译器上对模型性能进行测量，结果显示两者性能表现相似。

0

相关内容

NPU

【干货书】机器学习设计模式，408页pdf，Machine Learning Design Patterns

【干货书】机器学习设计模式，408页pdf，Machine Learning Design Patterns

专知会员服务

138+阅读 · 2022年2月6日

【干货书】面向计算科学和工程的Python导论，167页pdf

【干货书】面向计算科学和工程的Python导论，167页pdf

专知会员服务

42+阅读 · 2021年4月7日

【ACML2020】张量网络机器学习:最近的进展和前沿，109页ppt

【ACML2020】张量网络机器学习:最近的进展和前沿，109页ppt

专知会员服务

55+阅读 · 2020年12月15日

【DeepMind深度学习课程】序列循环神经网络，141页ppt，Sequences and Recurrent Network

【DeepMind深度学习课程】序列循环神经网络，141页ppt，Sequences and Recurrent Network

专知会员服务

86+阅读 · 2020年6月23日

【Google 大脑】使用上千个优化任务学习超参数搜索策略，Using a thousand optimization tasks to learn hyperparameter search strategies

【Google 大脑】使用上千个优化任务学习超参数搜索策略，Using a thousand optimization tasks to learn hyperparameter search strategies

专知会员服务

18+阅读 · 2020年3月14日

【新书】数字图像(影像)处理手第二版，2176pdf，Mathematical Methods in Imaging

【新书】数字图像(影像)处理手第二版，2176pdf，Mathematical Methods in Imaging

专知会员服务

94+阅读 · 2020年2月12日

【深度学习架构、模型和技巧集合(TensorFlow/PyTorch)】’Deep Learning Models - A collection of various deep learning architectures, models, and tips'

【深度学习架构、模型和技巧集合(TensorFlow/PyTorch)】’Deep Learning Models - A collection of various deep learning architectures, models, and tips'

专知会员服务

59+阅读 · 2020年1月25日

【深度学习表格检测、信息提取和结构化】《Table Detection, Information Extraction and Structuring using Deep Learning》by Vihar Kurama

专知会员服务

38+阅读 · 2020年1月23日

【CVPR 2019 | tutorial】OpenCV 4.x和更多用于CV研发的新工具：OpenCV 4.x and more new tools for CV R&D

【CVPR 2019 | tutorial】OpenCV 4.x和更多用于CV研发的新工具：OpenCV 4.x and more new tools for CV R&D

专知会员服务

12+阅读 · 2019年11月28日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

不再让CPU和总线拖后腿：Exafunction让GPU跑的更快！

不再让CPU和总线拖后腿：Exafunction让GPU跑的更快！

机器之心

0+阅读 · 2022年10月7日

存储和操作n维数据的难题，谷歌用一个开源软件库解决了

存储和操作n维数据的难题，谷歌用一个开源软件库解决了

机器之心

1+阅读 · 2022年9月23日

神经引擎这回行了吗？iPhone 14 Core ML性能测评已出

神经引擎这回行了吗？iPhone 14 Core ML性能测评已出

机器之心

0+阅读 · 2022年9月17日

动手实现推荐系统评价指标

动手实现推荐系统评价指标

机器学习与推荐算法

1+阅读 · 2022年6月1日

【泡泡一分钟】FarSight：从户外图像中实现远距离深度估计

【泡泡一分钟】FarSight：从户外图像中实现远距离深度估计

泡泡机器人SLAM

11+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

基于PyTorch/TorchText的自然语言处理库

基于PyTorch/TorchText的自然语言处理库

专知

28+阅读 · 2019年4月22日

SIGIR2019 接收论文列表

SIGIR2019 接收论文列表

专知

18+阅读 · 2019年4月20日

【泡泡点云时空】SpiderCNN：利用参数化卷积滤波进行点集深度学习（ECCV2018-13）

【泡泡点云时空】SpiderCNN：利用参数化卷积滤波进行点集深度学习（ECCV2018-13）

泡泡机器人SLAM

10+阅读 · 2018年11月8日

【泡泡点云时空】RSNet：用于3D点云分割的递归切片网络（CVPR2018-14)

【泡泡点云时空】RSNet：用于3D点云分割的递归切片网络（CVPR2018-14)

泡泡机器人SLAM

12+阅读 · 2018年9月18日

相变材料应变工程与锗多栅晶体管的优化集成方案

国家自然科学基金

0+阅读 · 2015年12月31日

利用复杂网络理論优化车载通信网络

国家自然科学基金

1+阅读 · 2014年12月31日

快速卷积型张量分解理论研究及在fMRI处理中的应用

国家自然科学基金

0+阅读 · 2013年12月31日

非线性Cahn-Hilliard型方程自适应高阶稳定数值方法分析

国家自然科学基金

0+阅读 · 2013年12月31日

面向高速并行向量-矩阵乘法运算的光学数字信号处理关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

缺失数据下基于经验似然的稳健推断函数

国家自然科学基金

1+阅读 · 2012年12月31日

用于EPICS输入输出控制器的冗余技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

宽带模拟自适应滤波器的研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于list-mode数据的快速SART真3D PET断层重建算法的研究

国家自然科学基金

0+阅读 · 2011年12月31日

复杂医学体数据快速分割的内分泌激素调节算子优化机理

国家自然科学基金

0+阅读 · 2009年12月31日

Dynamic Context Pruning for Efficient and Interpretable Autoregressive Transformers

Arxiv

0+阅读 · 2023年5月25日

DynStatF: An Efficient Feature Fusion Strategy for LiDAR 3D Object Detection

Arxiv

0+阅读 · 2023年5月24日

Transformer-Based Learned Optimization

Arxiv

0+阅读 · 2023年5月24日

Deceptive-NeRF: Enhancing NeRF Reconstruction using Pseudo-Observations from Diffusion Models

Arxiv

0+阅读 · 2023年5月24日

Dual-Side Feature Fusion 3D Pose Transfer

Arxiv

0+阅读 · 2023年5月24日

A Classical Architecture For Digital Quantum Computers

Arxiv

0+阅读 · 2023年5月23日

Sparse4D v2: Recurrent Temporal Fusion with Sparse Model

Arxiv

0+阅读 · 2023年5月23日

Finding tensor decompositions with sparse optimization

Arxiv

0+阅读 · 2023年5月23日

A Physics-Based Hybrid Dynamical Model of Hysteresis in Polycrystalline Shape Memory Alloy Wire Transducers

Arxiv

0+阅读 · 2023年5月23日

DeepMAD: Mathematical Architecture Design for Deep Convolutional Neural Network

Arxiv

11+阅读 · 2023年3月5日

VIP会员

文章信息

相关主题

最新内容

无人机自主控制与人工智能：系统性综述

无人机自主控制与人工智能：系统性综述

专知会员服务

10+阅读 · 今天7:25

巡飞弹与反无人机系统——现代战场的两大支柱

巡飞弹与反无人机系统——现代战场的两大支柱

专知会员服务

3+阅读 · 今天6:54

《打造“黄金舰队”》57页报告

《打造“黄金舰队”》57页报告

专知会员服务

3+阅读 · 今天6:52

《北约数字教官网络发展路径》128页报告

《北约数字教官网络发展路径》128页报告

专知会员服务

2+阅读 · 今天6:33

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

7+阅读 · 6月25日

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

6+阅读 · 6月25日

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

10+阅读 · 6月25日

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

8+阅读 · 6月25日

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

8+阅读 · 6月25日

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

8+阅读 · 6月25日

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

10+阅读 · 6月25日

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

9+阅读 · 6月25日

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

9+阅读 · 6月25日

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

10+阅读 · 6月24日

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

10+阅读 · 6月24日

相关VIP内容

【干货书】机器学习设计模式，408页pdf，Machine Learning Design Patterns

【干货书】机器学习设计模式，408页pdf，Machine Learning Design Patterns

专知会员服务

138+阅读 · 2022年2月6日

【干货书】面向计算科学和工程的Python导论，167页pdf

【干货书】面向计算科学和工程的Python导论，167页pdf

专知会员服务

42+阅读 · 2021年4月7日

【ACML2020】张量网络机器学习:最近的进展和前沿，109页ppt

【ACML2020】张量网络机器学习:最近的进展和前沿，109页ppt

专知会员服务

55+阅读 · 2020年12月15日

【DeepMind深度学习课程】序列循环神经网络，141页ppt，Sequences and Recurrent Network

【DeepMind深度学习课程】序列循环神经网络，141页ppt，Sequences and Recurrent Network

专知会员服务

86+阅读 · 2020年6月23日

【Google 大脑】使用上千个优化任务学习超参数搜索策略，Using a thousand optimization tasks to learn hyperparameter search strategies

【Google 大脑】使用上千个优化任务学习超参数搜索策略，Using a thousand optimization tasks to learn hyperparameter search strategies

专知会员服务

18+阅读 · 2020年3月14日

【新书】数字图像(影像)处理手第二版，2176pdf，Mathematical Methods in Imaging

【新书】数字图像(影像)处理手第二版，2176pdf，Mathematical Methods in Imaging

专知会员服务

94+阅读 · 2020年2月12日

【深度学习架构、模型和技巧集合(TensorFlow/PyTorch)】’Deep Learning Models - A collection of various deep learning architectures, models, and tips'

【深度学习架构、模型和技巧集合(TensorFlow/PyTorch)】’Deep Learning Models - A collection of various deep learning architectures, models, and tips'

专知会员服务

59+阅读 · 2020年1月25日

【深度学习表格检测、信息提取和结构化】《Table Detection, Information Extraction and Structuring using Deep Learning》by Vihar Kurama

专知会员服务

38+阅读 · 2020年1月23日

【CVPR 2019 | tutorial】OpenCV 4.x和更多用于CV研发的新工具：OpenCV 4.x and more new tools for CV R&D

【CVPR 2019 | tutorial】OpenCV 4.x和更多用于CV研发的新工具：OpenCV 4.x and more new tools for CV R&D

专知会员服务

12+阅读 · 2019年11月28日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

巡飞弹与反无人机系统——现代战场的两大支柱

《北约数字教官网络发展路径》128页报告

无人机自主控制与人工智能：系统性综述

《打造“黄金舰队”》57页报告

相关资讯

不再让CPU和总线拖后腿：Exafunction让GPU跑的更快！

不再让CPU和总线拖后腿：Exafunction让GPU跑的更快！

机器之心

0+阅读 · 2022年10月7日

存储和操作n维数据的难题，谷歌用一个开源软件库解决了

存储和操作n维数据的难题，谷歌用一个开源软件库解决了

机器之心

1+阅读 · 2022年9月23日

神经引擎这回行了吗？iPhone 14 Core ML性能测评已出

神经引擎这回行了吗？iPhone 14 Core ML性能测评已出

机器之心

0+阅读 · 2022年9月17日

动手实现推荐系统评价指标

动手实现推荐系统评价指标

机器学习与推荐算法

1+阅读 · 2022年6月1日

【泡泡一分钟】FarSight：从户外图像中实现远距离深度估计

【泡泡一分钟】FarSight：从户外图像中实现远距离深度估计

泡泡机器人SLAM

11+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

基于PyTorch/TorchText的自然语言处理库

基于PyTorch/TorchText的自然语言处理库

专知

28+阅读 · 2019年4月22日

SIGIR2019 接收论文列表

SIGIR2019 接收论文列表

专知

18+阅读 · 2019年4月20日

【泡泡点云时空】SpiderCNN：利用参数化卷积滤波进行点集深度学习（ECCV2018-13）

【泡泡点云时空】SpiderCNN：利用参数化卷积滤波进行点集深度学习（ECCV2018-13）

泡泡机器人SLAM

10+阅读 · 2018年11月8日

【泡泡点云时空】RSNet：用于3D点云分割的递归切片网络（CVPR2018-14)

【泡泡点云时空】RSNet：用于3D点云分割的递归切片网络（CVPR2018-14)

泡泡机器人SLAM

12+阅读 · 2018年9月18日

相关论文

Dynamic Context Pruning for Efficient and Interpretable Autoregressive Transformers

Arxiv

0+阅读 · 2023年5月25日

DynStatF: An Efficient Feature Fusion Strategy for LiDAR 3D Object Detection

Arxiv

0+阅读 · 2023年5月24日

Transformer-Based Learned Optimization

Arxiv

0+阅读 · 2023年5月24日

Deceptive-NeRF: Enhancing NeRF Reconstruction using Pseudo-Observations from Diffusion Models

Arxiv

0+阅读 · 2023年5月24日

Dual-Side Feature Fusion 3D Pose Transfer

Arxiv

0+阅读 · 2023年5月24日

A Classical Architecture For Digital Quantum Computers

Arxiv

0+阅读 · 2023年5月23日

Sparse4D v2: Recurrent Temporal Fusion with Sparse Model

Arxiv

0+阅读 · 2023年5月23日

Finding tensor decompositions with sparse optimization

Arxiv

0+阅读 · 2023年5月23日

A Physics-Based Hybrid Dynamical Model of Hysteresis in Polycrystalline Shape Memory Alloy Wire Transducers

Arxiv

0+阅读 · 2023年5月23日

DeepMAD: Mathematical Architecture Design for Deep Convolutional Neural Network

Arxiv

11+阅读 · 2023年3月5日

相关基金

相变材料应变工程与锗多栅晶体管的优化集成方案

国家自然科学基金

0+阅读 · 2015年12月31日

利用复杂网络理論优化车载通信网络

国家自然科学基金

1+阅读 · 2014年12月31日

快速卷积型张量分解理论研究及在fMRI处理中的应用

国家自然科学基金

0+阅读 · 2013年12月31日

非线性Cahn-Hilliard型方程自适应高阶稳定数值方法分析

国家自然科学基金

0+阅读 · 2013年12月31日

面向高速并行向量-矩阵乘法运算的光学数字信号处理关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

缺失数据下基于经验似然的稳健推断函数

国家自然科学基金

1+阅读 · 2012年12月31日

用于EPICS输入输出控制器的冗余技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

宽带模拟自适应滤波器的研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于list-mode数据的快速SART真3D PET断层重建算法的研究

国家自然科学基金

0+阅读 · 2011年12月31日

复杂医学体数据快速分割的内分泌激素调节算子优化机理

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员