Domain-specific accelerators deliver exceptional performance on their target workloads through fabrication-time orchestrated datapaths. However, such specialized architectures often exhibit performance fragility when exposed to new kernels or irregular input patterns. In contrast, programmable architectures like FPGAs, CGRAs, and GPUs rely on compile-time orchestration to support a broader range of applications; but they are typically less efficient under irregular or sparse data. Pushing the boundaries of programmable architectures requires designs that can achieve efficiency and high-performance on par with specialized accelerators while retaining the agility of general-purpose architectures. We introduce Canon, a parallel architecture that bridges the gap between specialized and general purpose architectures. Canon exploits data-level and instruction-level parallelism through its novel design. First, it employs a novel dynamic data-driven orchestration mechanism using programmable Finite State Machines (FSMs). These FSMs are programmed at compile time to encode high-level dataflow per state and translate incoming meta-information (e.g., sparse coordinates) into control instructions at runtime. Second, Canon introduces a time-lapsed SIMD execution in which instructions are issued across a row of processing elements over several cycles, creating a staggered pipelined execution. These innovations amortize control overhead, allowing dynamic instruction changes while constructing a continuously evolving dataflow that maximizes parallelism. Experimental evaluation shows that Canon delivers high performance across diverse data-agnostic and data-driven kernels while achieving efficiency comparable to specialized accelerators, yet retaining the flexibility of a general-purpose architecture.


翻译:领域专用加速器通过制造时编排的数据通路在其目标工作负载上展现出卓越性能。然而,当面对新内核或不规则输入模式时,此类专用架构常表现出性能脆弱性。相比之下,FPGA、CGRA和GPU等可编程架构依赖编译时编排来支持更广泛的应用范围,但在不规则或稀疏数据下通常效率较低。要突破可编程架构的边界,需要设计出既能实现与专用加速器相当的高效高性能,又能保持通用架构敏捷性的方案。我们提出Canon——一种弥合专用架构与通用架构间鸿沟的并行架构。Canon通过其创新设计同时开发数据级与指令级并行性:首先,它采用基于可编程有限状态机的新型动态数据驱动编排机制,这些FSM在编译时被编程以编码各状态的高级数据流,并在运行时将传入元信息(如稀疏坐标)转换为控制指令;其次,Canon引入时滞SIMD执行机制,指令在多个周期内跨处理单元阵列发射,形成交错流水线执行。这些创新分摊了控制开销,在构建持续演化的数据流以最大化并行性的同时,支持动态指令变更。实验评估表明,Canon在多种数据无关与数据驱动内核中均实现高性能,在保持通用架构灵活性的同时,获得了与专用加速器相媲美的能效。

0
下载
关闭预览

相关内容

人们为了让计算机解决各种棘手的问题,使用编程语言 编写程序代码并通过计算机运算得到最终结果的过程。
可解释的机器学习模型和架构
专知会员服务
92+阅读 · 2023年9月17日
图计算加速架构综述
专知会员服务
51+阅读 · 2021年4月5日
《“边缘计算+”技术白皮书》,82页pdf
专知
11+阅读 · 2022年8月28日
【数据中台】数据中台技术架构方案
产业智能官
15+阅读 · 2020年5月26日
40张PPT,帮你轻松入门Spark大数据!BAT架构师制作!
七月在线实验室
19+阅读 · 2019年5月27日
今日头条推荐系统架构演进之路
QCon
32+阅读 · 2017年6月21日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员