Reduced-Precision Floating-Point Arithmetic in Systolic Arrays with Skewed Pipelines - 专知论文

会员服务 ·

0

阵列 · 精度 · 矩阵乘法 · 操作 · 点乘 ·

2023 年 4 月 4 日

Reduced-Precision Floating-Point Arithmetic in Systolic Arrays with Skewed Pipelines

翻译：脉动阵列中基于偏斜流水线的低精度浮点运算

Dionysios Filippas,Christodoulos Peltekis,Giorgos Dimitrakopoulos,Chrysostomos Nicopoulos

from arxiv, Accepted at IEEE International Conference on Artificial Intelligence Circuits and Systems (AICAS) 2023

The acceleration of deep-learning kernels in hardware relies on matrix multiplications that are executed efficiently on Systolic Arrays (SA). To effectively trade off deep-learning training/inference quality with hardware cost, SA accelerators employ reduced-precision Floating-Point (FP) arithmetic. In this work, we demonstrate the need for new pipeline organizations to reduce latency and improve energy efficiency of reduced-precision FP operators for the chained multiply-add operation imposed by the structure of the SA. The proposed skewed pipeline design reorganizes the pipelined operation of the FP multiply-add units to enable new forwarding paths for the exponent logic, which allow for parallel execution of the pipeline stages of consecutive PEs. As a result, the latency of the matrix multiplication operation within the SA is significantly reduced with minimal hardware cost, thereby yielding an energy reduction of 8% and 11% for the examined state-of-the-art CNNs.

翻译：深度学习核心硬件加速依赖于在脉动阵列（Systolic Array, SA）上高效执行的矩阵乘法。为在深度学习训练/推理质量与硬件成本之间实现有效权衡，脉动阵列加速器采用低精度浮点（Floating-Point, FP）运算。本工作揭示了在脉动阵列结构所强制的链式乘加操作中，需采用新型流水线组织结构以降低低精度浮点运算器的延迟并提升能效。本文提出的偏斜流水线设计通过重构浮点乘加单元的流水线操作，为指数逻辑开辟了新的前向路径，从而使得相邻处理单元（Processing Element, PE）的流水线阶段能够并行执行。由此，脉动阵列内矩阵乘法运算的延迟在极低硬件成本下显著降低，进而使所评估的当代卷积神经网络（CNN）的能耗分别降低8%和11%。

0

相关内容

【2022新书】高效深度学习，Efficient Deep Learning Book

【2022新书】高效深度学习，Efficient Deep Learning Book

专知会员服务

128+阅读 · 2022年4月21日

【经典书】线性代数，436页pdf

专知会员服务

78+阅读 · 2021年3月16日

机器学习组合优化

机器学习组合优化

专知会员服务

111+阅读 · 2021年2月16日

【ETH】最新《几何数据分析》2020课程，附PPT下载

专知会员服务

45+阅读 · 2020年12月18日

【Google】深度学习对抗鲁棒性，43页ppt

专知会员服务

46+阅读 · 2020年10月31日

【经典书】数据挖掘：理论、算法与示例，347页pdf，Nong Ye，Arizona State University

【经典书】数据挖掘：理论、算法与示例，347页pdf，Nong Ye，Arizona State University

专知会员服务

83+阅读 · 2020年2月27日

【NeurIPS2019教程】深度神经网络的高效处理:从算法到硬件架构

【NeurIPS2019教程】深度神经网络的高效处理:从算法到硬件架构

专知会员服务

61+阅读 · 2019年12月9日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

专知会员服务

84+阅读 · 2019年10月9日

【哈佛大学商学院课程Fall 2019】机器学习可解释性

【哈佛大学商学院课程Fall 2019】机器学习可解释性

专知会员服务

105+阅读 · 2019年10月9日

【干货书】基于统计和机器学习的实用时间序列分析预测，Time Series Analysis Prediction

【干货书】基于统计和机器学习的实用时间序列分析预测，Time Series Analysis Prediction

专知

18+阅读 · 2022年4月9日

局部学习的特征选择：Local-Learning-Based Feature Selection

局部学习的特征选择：Local-Learning-Based Feature Selection

我爱读PAMI

14+阅读 · 2019年9月20日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

斯坦福大学Fall 2018课程-机器学习硬件加速器( 附PPT下载)

斯坦福大学Fall 2018课程-机器学习硬件加速器( 附PPT下载)

专知

18+阅读 · 2018年7月15日

RF、GBDT、XGBoost面试级整理

RF、GBDT、XGBoost面试级整理

数据挖掘入门与实战

17+阅读 · 2018年3月21日

机器学习线性代数速查

机器学习线性代数速查

机器学习研究会

19+阅读 · 2018年2月25日

【论文】变分推断（Variational inference)的总结

【论文】变分推断（Variational inference)的总结

机器学习研究会

39+阅读 · 2017年11月16日

吸收倍增分离型波导Si/Ge雪崩探测器件的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于GNSS的高速列车多源信息融合定位模型及其RAMS评估研究

国家自然科学基金

0+阅读 · 2014年12月31日

GNSS自适应阵列天线引入测量误差的补偿技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于FS的距离单元徙动校正算法对提高FMCW-SAR实时成像质量的研究

国家自然科学基金

0+阅读 · 2013年12月31日

面向无线视频组播的分布式编码与随机混叠调制

国家自然科学基金

0+阅读 · 2012年12月31日

数据中心Fat-Tree批量调度光包交换新架构

国家自然科学基金

2+阅读 · 2012年12月31日

硅基纳米光波导陀螺敏感机制及导波结构表面光滑化关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

柔性η-CuPc纳米柱阵列有机薄膜太阳能电池

国家自然科学基金

0+阅读 · 2011年12月31日

宽带频谱压缩感知与自适应分配算法

国家自然科学基金

0+阅读 · 2011年12月31日

有限域上多项式的降次与P-adic估计、指数和

国家自然科学基金

0+阅读 · 2009年12月31日

In-context Example Selection for Machine Translation Using Multiple Features

Arxiv

0+阅读 · 2023年5月23日

EfficientSpeech: An On-Device Text to Speech Model

Arxiv

0+阅读 · 2023年5月23日

Trend-Based SAC Beam Control Method with Zero-Shot in Superconducting Linear Accelerator

Arxiv

0+阅读 · 2023年5月23日

Federated Variational Inference: Towards Improved Personalization and Generalization

Arxiv

0+阅读 · 2023年5月23日

A first look into the carbon footprint of federated learning

Arxiv

0+阅读 · 2023年5月22日

Reduce: A Framework for Reducing the Overheads of Fault-Aware Retraining

Arxiv

0+阅读 · 2023年5月21日

Compact Lattice Gadget and Its Applications to Hash-and-Sign Signatures

Arxiv

0+阅读 · 2023年5月21日

A Secure and Robust Approach for Distance-Based Mutual Positioning of Unmanned Aerial Vehicles

Arxiv

0+阅读 · 2023年5月19日

Nonconvex Robust High-Order Tensor Completion Using Randomized Low-Rank Approximation

Arxiv

0+阅读 · 2023年5月19日

Epicurus at SemEval-2023 Task 4: Improving Prediction of Human Values behind Arguments by Leveraging Their Definitions

Arxiv

0+阅读 · 2023年5月18日

VIP会员

文章信息

相关主题

最新内容

现代战争的隐蔽系统：伊朗战争十大启示

现代战争的隐蔽系统：伊朗战争十大启示

专知会员服务

0+阅读 · 今天3:58

ICML 2026 | 自回归Boltzmann生成器重塑分子采样

ICML 2026 | 自回归Boltzmann生成器重塑分子采样

专知会员服务

3+阅读 · 6月26日

GNN跨域综述：从消息传递到图基础模型

GNN跨域综述：从消息传递到图基础模型

专知会员服务

4+阅读 · 6月26日

无人机自主控制与人工智能：系统性综述

无人机自主控制与人工智能：系统性综述

专知会员服务

12+阅读 · 6月26日

巡飞弹与反无人机系统——现代战场的两大支柱

巡飞弹与反无人机系统——现代战场的两大支柱

专知会员服务

5+阅读 · 6月26日

《打造“黄金舰队”》57页报告

《打造“黄金舰队”》57页报告

专知会员服务

4+阅读 · 6月26日

《北约数字教官网络发展路径》128页报告

《北约数字教官网络发展路径》128页报告

专知会员服务

3+阅读 · 6月26日

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

7+阅读 · 6月25日

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

6+阅读 · 6月25日

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

10+阅读 · 6月25日

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

8+阅读 · 6月25日

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

9+阅读 · 6月25日

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

8+阅读 · 6月25日

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

10+阅读 · 6月25日

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

9+阅读 · 6月25日

相关VIP内容

【2022新书】高效深度学习，Efficient Deep Learning Book

【2022新书】高效深度学习，Efficient Deep Learning Book

专知会员服务

128+阅读 · 2022年4月21日

【经典书】线性代数，436页pdf

专知会员服务

78+阅读 · 2021年3月16日

机器学习组合优化

机器学习组合优化

专知会员服务

111+阅读 · 2021年2月16日

【ETH】最新《几何数据分析》2020课程，附PPT下载

专知会员服务

45+阅读 · 2020年12月18日

【Google】深度学习对抗鲁棒性，43页ppt

专知会员服务

46+阅读 · 2020年10月31日

【经典书】数据挖掘：理论、算法与示例，347页pdf，Nong Ye，Arizona State University

【经典书】数据挖掘：理论、算法与示例，347页pdf，Nong Ye，Arizona State University

专知会员服务

83+阅读 · 2020年2月27日

【NeurIPS2019教程】深度神经网络的高效处理:从算法到硬件架构

【NeurIPS2019教程】深度神经网络的高效处理:从算法到硬件架构

专知会员服务

61+阅读 · 2019年12月9日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

专知会员服务

84+阅读 · 2019年10月9日

【哈佛大学商学院课程Fall 2019】机器学习可解释性

【哈佛大学商学院课程Fall 2019】机器学习可解释性

专知会员服务

105+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 自回归Boltzmann生成器重塑分子采样

无人机自主控制与人工智能：系统性综述

现代战争的隐蔽系统：伊朗战争十大启示

GNN跨域综述：从消息传递到图基础模型

相关资讯

【干货书】基于统计和机器学习的实用时间序列分析预测，Time Series Analysis Prediction

【干货书】基于统计和机器学习的实用时间序列分析预测，Time Series Analysis Prediction

专知

18+阅读 · 2022年4月9日

局部学习的特征选择：Local-Learning-Based Feature Selection

局部学习的特征选择：Local-Learning-Based Feature Selection

我爱读PAMI

14+阅读 · 2019年9月20日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

斯坦福大学Fall 2018课程-机器学习硬件加速器( 附PPT下载)

斯坦福大学Fall 2018课程-机器学习硬件加速器( 附PPT下载)

专知

18+阅读 · 2018年7月15日

RF、GBDT、XGBoost面试级整理

RF、GBDT、XGBoost面试级整理

数据挖掘入门与实战

17+阅读 · 2018年3月21日

机器学习线性代数速查

机器学习线性代数速查

机器学习研究会

19+阅读 · 2018年2月25日

【论文】变分推断（Variational inference)的总结

【论文】变分推断（Variational inference)的总结

机器学习研究会

39+阅读 · 2017年11月16日

相关论文

In-context Example Selection for Machine Translation Using Multiple Features

Arxiv

0+阅读 · 2023年5月23日

EfficientSpeech: An On-Device Text to Speech Model

Arxiv

0+阅读 · 2023年5月23日

Trend-Based SAC Beam Control Method with Zero-Shot in Superconducting Linear Accelerator

Arxiv

0+阅读 · 2023年5月23日

Federated Variational Inference: Towards Improved Personalization and Generalization

Arxiv

0+阅读 · 2023年5月23日

A first look into the carbon footprint of federated learning

Arxiv

0+阅读 · 2023年5月22日

Reduce: A Framework for Reducing the Overheads of Fault-Aware Retraining

Arxiv

0+阅读 · 2023年5月21日

Compact Lattice Gadget and Its Applications to Hash-and-Sign Signatures

Arxiv

0+阅读 · 2023年5月21日

A Secure and Robust Approach for Distance-Based Mutual Positioning of Unmanned Aerial Vehicles

Arxiv

0+阅读 · 2023年5月19日

Nonconvex Robust High-Order Tensor Completion Using Randomized Low-Rank Approximation

Arxiv

0+阅读 · 2023年5月19日

Epicurus at SemEval-2023 Task 4: Improving Prediction of Human Values behind Arguments by Leveraging Their Definitions

Arxiv

0+阅读 · 2023年5月18日

相关基金

吸收倍增分离型波导Si/Ge雪崩探测器件的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于GNSS的高速列车多源信息融合定位模型及其RAMS评估研究

国家自然科学基金

0+阅读 · 2014年12月31日

GNSS自适应阵列天线引入测量误差的补偿技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于FS的距离单元徙动校正算法对提高FMCW-SAR实时成像质量的研究

国家自然科学基金

0+阅读 · 2013年12月31日

面向无线视频组播的分布式编码与随机混叠调制

国家自然科学基金

0+阅读 · 2012年12月31日

数据中心Fat-Tree批量调度光包交换新架构

国家自然科学基金

2+阅读 · 2012年12月31日

硅基纳米光波导陀螺敏感机制及导波结构表面光滑化关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

柔性η-CuPc纳米柱阵列有机薄膜太阳能电池

国家自然科学基金

0+阅读 · 2011年12月31日

宽带频谱压缩感知与自适应分配算法

国家自然科学基金

0+阅读 · 2011年12月31日

有限域上多项式的降次与P-adic估计、指数和

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员