Scope：一种面向多芯片模块神经网络加速器的可扩展融合流水线框架 (Scope: A Scalable Merged Pipeline Framework for Multi-Chip-Module NN Accelerators) - 专知论文

会员服务 ·

0

芯片 · 融合 · 神经网络 · 神经网络加速器 · 并行 ·

Scope: A Scalable Merged Pipeline Framework for Multi-Chip-Module NN Accelerators

翻译：Scope：一种面向多芯片模块神经网络加速器的可扩展融合流水线框架

Zongle Huang,Hongyang Jia,Kaiwei Zou,Yongpan Liu

from arxiv, Accepted in ASP-DAC 2026

Neural network (NN) accelerators with multi-chip-module (MCM) architectures enable integration of massive computation capability; however, they face challenges of computing resource underutilization and off-chip communication overheads. Traditional parallelization schemes for NN inference on MCM architectures, such as intra-layer parallelism and inter-layer pipelining, show incompetency in breaking through both challenges, limiting the scalability of MCM architectures. We observed that existing works typically deploy layers separately rather than considering them jointly. This underexploited dimension leads to compromises between system computation and communication, thus hindering optimal utilization, especially as hardware/software scale. To address this limitation, we propose Scope, a merged pipeline framework incorporating this overlooked multi-layer dimension, thereby achieving improved throughput and scalability by relaxing tradeoffs between computation, communication and memory costs. This new dimension, however, adds to the complexity of design space exploration (DSE). To tackle this, we develop a series of search algorithms that achieves exponential-to-linear complexity reduction, while identifying solutions that rank in the top 0.05% of performance. Experiments show that Scope achieves up to 1.73x throughput improvement while maintaining similar energy consumption for ResNet-152 inference compared to state-of-the-art approaches.

翻译：采用多芯片模块（MCM）架构的神经网络（NN）加速器能够集成大规模计算能力，然而其面临计算资源利用率不足和片外通信开销的挑战。针对MCM架构上神经网络推理的传统并行化方案（如层内并行和层间流水线）在突破这两方面挑战时均显不足，限制了MCM架构的可扩展性。我们观察到现有工作通常将网络层单独部署而非联合考虑。这一未被充分利用的维度导致系统计算与通信之间的折衷，从而阻碍了最优利用率，尤其在硬件/软件规模扩展时更为明显。为突破此限制，我们提出Scope——一种融合了被忽视的多层维度的流水线框架，通过放宽计算、通信与存储成本之间的权衡，实现了吞吐量与可扩展性的提升。然而，这一新维度增加了设计空间探索（DSE）的复杂性。为此，我们开发了一系列搜索算法，在实现指数级至线性级复杂度降低的同时，能识别出性能排名位于前0.05%的解决方案。实验表明，在ResNet-152推理任务中，相较于最先进方法，Scope在保持相近能耗的同时，最高可实现1.73倍的吞吐量提升。

0

相关内容

半导体是一类材料的总称，集成电路是用半导体材料制成的电路的大型集合，芯片是由不同种类型的集成电路或者单一类型集成电路形成的产品。

【ETZH博士论文】多精度硬件加速的架构与微架构解决方案

【ETZH博士论文】多精度硬件加速的架构与微架构解决方案

专知会员服务

13+阅读 · 2025年2月1日

【普林斯顿博士论文】深度学习加速器的编译器支持：端到端评估与数据访问优化

【普林斯顿博士论文】深度学习加速器的编译器支持：端到端评估与数据访问优化

专知会员服务

18+阅读 · 2025年1月7日

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

专知会员服务

40+阅读 · 2023年9月27日

【MIT博士论文】稀疏深度神经网络加速器的系统建模与设计, 139页pdf

【MIT博士论文】稀疏深度神经网络加速器的系统建模与设计, 139页pdf

专知会员服务

36+阅读 · 2023年8月12日

UCLA最新《图神经网络加速》综述，54页pdf阐述算法、系统和定制硬件

UCLA最新《图神经网络加速》综述，54页pdf阐述算法、系统和定制硬件

专知会员服务

22+阅读 · 2023年7月1日

【剑桥大学博士论文】高效神经网络的软硬件协同设计，144页pdf

【剑桥大学博士论文】高效神经网络的软硬件协同设计，144页pdf

专知会员服务

52+阅读 · 2023年2月12日

【ICML2022】DepthShrinker:一种新的压缩范式，用于提高紧凑神经网络的实际硬件效率

【ICML2022】DepthShrinker:一种新的压缩范式，用于提高紧凑神经网络的实际硬件效率

专知会员服务

11+阅读 · 2022年6月5日

神经网络加速器架构概述

神经网络加速器架构概述

专知会员服务

37+阅读 · 2022年4月23日

GNN+IoT=？弗吉尼亚大学最新《图神经网络与物联网》综述论文，45页pdf全面阐述GNN在IoT中的进展，包括算法与代码数据

GNN+IoT=？弗吉尼亚大学最新《图神经网络与物联网》综述论文，45页pdf全面阐述GNN在IoT中的进展，包括算法与代码数据

专知会员服务

61+阅读 · 2022年4月2日

GNN如何加速？中科院计算所最新《图神经网络加速算法研究》综述论文阐述GNN加速算法体系

GNN如何加速？中科院计算所最新《图神经网络加速算法研究》综述论文阐述GNN加速算法体系

专知会员服务

35+阅读 · 2022年2月11日

图神经网络模型集合GraphGallery，TensorFLow&PyTorch一并实现

图神经网络模型集合GraphGallery，TensorFLow&PyTorch一并实现

专知

20+阅读 · 2020年10月5日

深度学习框架大PK：TNN决战MNN，ncnn依旧经典

深度学习框架大PK：TNN决战MNN，ncnn依旧经典

新智元

10+阅读 · 2020年7月3日

【GNN】深度学习之上，图神经网络（GNN ）崛起

【GNN】深度学习之上，图神经网络（GNN ）崛起

产业智能官

16+阅读 · 2019年8月15日

图神经网络开发必备组件，NetworkX、稀疏矩阵、稀疏Tensor等

图神经网络开发必备组件，NetworkX、稀疏矩阵、稀疏Tensor等

专知

48+阅读 · 2019年5月10日

【干货】5个最新图像合成GAN架构解读：核心理念、关键成就、商业化路径

【干货】5个最新图像合成GAN架构解读：核心理念、关键成就、商业化路径

GAN生成式对抗网络

12+阅读 · 2019年3月17日

硬件加速神经网络综述

硬件加速神经网络综述

计算机研究与发展

26+阅读 · 2019年2月1日

CCCF专栏 | 面向领域定制的神经网络结构设计

CCCF专栏 | 面向领域定制的神经网络结构设计

中国计算机学会

10+阅读 · 2018年12月17日

深度学习开发必备开源框架

深度学习开发必备开源框架

九章算法

12+阅读 · 2018年5月30日

前沿 | 简述脉冲神经网络SNN：下一代神经网络

前沿 | 简述脉冲神经网络SNN：下一代神经网络

机器之心

39+阅读 · 2018年1月13日

【干货】神经机器翻译全流程解析，one-shot 和 zero-shot 学习成亮点

【干货】神经机器翻译全流程解析，one-shot 和 zero-shot 学习成亮点

新智元

10+阅读 · 2017年4月2日

基于加速网的光电混合三维互连架构设计方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

异构众核处理器非对称片上互连网络研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大规模动态异构网络的支持多用户并发任务的物联网应用构建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向数万处理器的有限元线性方程组与模态多级算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

嵌入式异构多核系统应用程序自动并行化过程关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向高性能异构众核架构的大规模CFD并行算法与应用

国家自然科学基金

0+阅读 · 2015年12月31日

神经形态多核处理器的架构模型研究

国家自然科学基金

3+阅读 · 2015年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于异构连通需求的M2M网络拓扑控制机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

SimulatorCoder: DNN Accelerator Simulator Code Generation and Optimization via Large Language Models

Arxiv

0+阅读 · 2月19日

TriGen: NPU Architecture for End-to-End Acceleration of Large Language Models based on SW-HW Co-Design

Arxiv

0+阅读 · 2月13日

FastUSP: A Multi-Level Collaborative Acceleration Framework for Distributed Diffusion Model Inference

Arxiv

0+阅读 · 2月11日

BitLogic: Training Framework for Gradient-Based FPGA-Native Neural Networks

Arxiv

0+阅读 · 2月7日

FeNN-DMA: A RISC-V SoC for SNN acceleration

Arxiv

0+阅读 · 2月6日

A Parameterizable Convolution Accelerator for Embedded Deep Learning Applications

Arxiv

0+阅读 · 2月3日

Neural Network Machine Regression (NNMR): A Deep Learning Framework for Uncovering High-order Synergistic Effects

Arxiv

0+阅读 · 2月2日

AsyncMesh: Fully Asynchronous Optimization for Data and Pipeline Parallelism

Arxiv

0+阅读 · 1月30日

FireFly-S: Exploiting Dual-Side Sparsity for Spiking Neural Networks Acceleration with Reconfigurable Spatial Architecture

Arxiv

0+阅读 · 1月29日

KernelEvolve: Scaling Agentic Kernel Coding for Heterogeneous AI Accelerators at Meta

Arxiv

0+阅读 · 1月16日

VIP会员

文章信息

相关主题

神经网络加速器

相关VIP内容

【ETZH博士论文】多精度硬件加速的架构与微架构解决方案

【ETZH博士论文】多精度硬件加速的架构与微架构解决方案

专知会员服务

13+阅读 · 2025年2月1日

【普林斯顿博士论文】深度学习加速器的编译器支持：端到端评估与数据访问优化

【普林斯顿博士论文】深度学习加速器的编译器支持：端到端评估与数据访问优化

专知会员服务

18+阅读 · 2025年1月7日

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

专知会员服务

40+阅读 · 2023年9月27日

【MIT博士论文】稀疏深度神经网络加速器的系统建模与设计, 139页pdf

【MIT博士论文】稀疏深度神经网络加速器的系统建模与设计, 139页pdf

专知会员服务

36+阅读 · 2023年8月12日

UCLA最新《图神经网络加速》综述，54页pdf阐述算法、系统和定制硬件

UCLA最新《图神经网络加速》综述，54页pdf阐述算法、系统和定制硬件

专知会员服务

22+阅读 · 2023年7月1日

【剑桥大学博士论文】高效神经网络的软硬件协同设计，144页pdf

【剑桥大学博士论文】高效神经网络的软硬件协同设计，144页pdf

专知会员服务

52+阅读 · 2023年2月12日

【ICML2022】DepthShrinker:一种新的压缩范式，用于提高紧凑神经网络的实际硬件效率

【ICML2022】DepthShrinker:一种新的压缩范式，用于提高紧凑神经网络的实际硬件效率

专知会员服务

11+阅读 · 2022年6月5日

神经网络加速器架构概述

神经网络加速器架构概述

专知会员服务

37+阅读 · 2022年4月23日

GNN+IoT=？弗吉尼亚大学最新《图神经网络与物联网》综述论文，45页pdf全面阐述GNN在IoT中的进展，包括算法与代码数据

GNN+IoT=？弗吉尼亚大学最新《图神经网络与物联网》综述论文，45页pdf全面阐述GNN在IoT中的进展，包括算法与代码数据

专知会员服务

61+阅读 · 2022年4月2日

GNN如何加速？中科院计算所最新《图神经网络加速算法研究》综述论文阐述GNN加速算法体系

GNN如何加速？中科院计算所最新《图神经网络加速算法研究》综述论文阐述GNN加速算法体系

专知会员服务

35+阅读 · 2022年2月11日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

图神经网络模型集合GraphGallery，TensorFLow&PyTorch一并实现

图神经网络模型集合GraphGallery，TensorFLow&PyTorch一并实现

专知

20+阅读 · 2020年10月5日

深度学习框架大PK：TNN决战MNN，ncnn依旧经典

深度学习框架大PK：TNN决战MNN，ncnn依旧经典

新智元

10+阅读 · 2020年7月3日

【GNN】深度学习之上，图神经网络（GNN ）崛起

【GNN】深度学习之上，图神经网络（GNN ）崛起

产业智能官

16+阅读 · 2019年8月15日

图神经网络开发必备组件，NetworkX、稀疏矩阵、稀疏Tensor等

图神经网络开发必备组件，NetworkX、稀疏矩阵、稀疏Tensor等

专知

48+阅读 · 2019年5月10日

【干货】5个最新图像合成GAN架构解读：核心理念、关键成就、商业化路径

【干货】5个最新图像合成GAN架构解读：核心理念、关键成就、商业化路径

GAN生成式对抗网络

12+阅读 · 2019年3月17日

硬件加速神经网络综述

硬件加速神经网络综述

计算机研究与发展

26+阅读 · 2019年2月1日

CCCF专栏 | 面向领域定制的神经网络结构设计

CCCF专栏 | 面向领域定制的神经网络结构设计

中国计算机学会

10+阅读 · 2018年12月17日

深度学习开发必备开源框架

深度学习开发必备开源框架

九章算法

12+阅读 · 2018年5月30日

前沿 | 简述脉冲神经网络SNN：下一代神经网络

前沿 | 简述脉冲神经网络SNN：下一代神经网络

机器之心

39+阅读 · 2018年1月13日

【干货】神经机器翻译全流程解析，one-shot 和 zero-shot 学习成亮点

【干货】神经机器翻译全流程解析，one-shot 和 zero-shot 学习成亮点

新智元

10+阅读 · 2017年4月2日

相关论文

SimulatorCoder: DNN Accelerator Simulator Code Generation and Optimization via Large Language Models

Arxiv

0+阅读 · 2月19日

TriGen: NPU Architecture for End-to-End Acceleration of Large Language Models based on SW-HW Co-Design

Arxiv

0+阅读 · 2月13日

FastUSP: A Multi-Level Collaborative Acceleration Framework for Distributed Diffusion Model Inference

Arxiv

0+阅读 · 2月11日

BitLogic: Training Framework for Gradient-Based FPGA-Native Neural Networks

Arxiv

0+阅读 · 2月7日

FeNN-DMA: A RISC-V SoC for SNN acceleration

Arxiv

0+阅读 · 2月6日

A Parameterizable Convolution Accelerator for Embedded Deep Learning Applications

Arxiv

0+阅读 · 2月3日

Neural Network Machine Regression (NNMR): A Deep Learning Framework for Uncovering High-order Synergistic Effects

Arxiv

0+阅读 · 2月2日

AsyncMesh: Fully Asynchronous Optimization for Data and Pipeline Parallelism

Arxiv

0+阅读 · 1月30日

FireFly-S: Exploiting Dual-Side Sparsity for Spiking Neural Networks Acceleration with Reconfigurable Spatial Architecture

Arxiv

0+阅读 · 1月29日

KernelEvolve: Scaling Agentic Kernel Coding for Heterogeneous AI Accelerators at Meta

Arxiv

0+阅读 · 1月16日

相关基金

基于加速网的光电混合三维互连架构设计方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

异构众核处理器非对称片上互连网络研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大规模动态异构网络的支持多用户并发任务的物联网应用构建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向数万处理器的有限元线性方程组与模态多级算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

嵌入式异构多核系统应用程序自动并行化过程关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向高性能异构众核架构的大规模CFD并行算法与应用

国家自然科学基金

0+阅读 · 2015年12月31日

神经形态多核处理器的架构模型研究

国家自然科学基金

3+阅读 · 2015年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于异构连通需求的M2M网络拓扑控制机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员