Domain-specific Field Programmable Gate Array (FPGA) architectures increasingly integrate specialized hardblocks, such as Tensor Slices, to accelerate artificial intelligence and machine learning workloads. Despite their efficiency benefits, these architectures remain difficult to program because designers typically rely on manual Register-Transfer Level (RTL) integration to access these hardblocks. This paper presents a compiler-agnostic methodology that enables high-level synthesis (HLS) tools to target custom FPGA hardblocks directly from C/C++ code. Architectural hardblocks are exposed as schedulable C-level operators using an RTL blackbox abstraction with explicit latency and initiation-interval contracts, allowing the HLS scheduler to optimize around specialized hardware without manual RTL orchestration. Unlike traditional uses of HLS blackboxes for external IP integration, our approach treats blackboxes as architectural abstractions, enabling scalable composition of C-level operators that target custom FPGA hardblocks without compiler modification. We evaluate the proposed flow using a Tensor Slice-based FPGA architecture with AMD Vitis HLS and the Verilog-to-Routing (VTR) toolchain. Across multiple matrix sizes, designs generated using the proposed C-Blackbox flow achieve lower area-delay product than behavioral HLS baselines while providing substantially higher productivity-adjusted efficiency than handwritten RTL implementations. These results demonstrate that domain-specific FPGA architectures can be made accessible through HLS while maintaining competitive hardware efficiency.


翻译:领域专用现场可编程门阵列(FPGA)架构日益集成专用硬模块(如Tensor Slices),以加速人工智能和机器学习工作负载。尽管这些架构具有效率优势,但由于设计人员通常依赖手动寄存器传输级(RTL)集成来访问这些硬模块,因此编程仍较为困难。本文提出一种与编译器无关的方法,使高层次综合(HLS)工具能够直接从C/C++代码针对定制FPGA硬模块。架构硬模块通过具有显式延迟和启动间隔约束的RTL黑盒抽象暴露为可调度的C级算子,从而使HLS调度器能够围绕专用硬件进行优化,无需手动RTL编排。与将HLS黑盒用于外部IP集成的传统方式不同,我们的方法将黑盒视为架构抽象,支持针对定制FPGA硬模块的C级算子的可扩展组合,且无需修改编译器。我们使用基于Tensor Slices的FPGA架构,结合AMD Vitis HLS和Verilog-to-Routing(VTR)工具链对所提流程进行评估。在多种矩阵尺寸下,使用所提C-Blackbox流程生成的电路在面积-延迟积上优于行为级HLS基线,同时相比手写RTL实现提供显著更高的生产力调整效率。这些结果表明,领域专用FPGA架构可通过HLS实现可访问性,同时保持有竞争力的硬件效率。

0
下载
关闭预览

相关内容

FPGA:ACM/SIGDA International Symposium on Field-Programmable Gate Arrays。 Explanation:ACM/SIGDA现场可编程门阵列国际研讨会。 Publisher:ACM。 SIT: http://dblp.uni-trier.de/db/conf/fpga/
基于机器学习的FPGA电子设计自动化技术研究综述
专知会员服务
21+阅读 · 2022年11月22日
面向FPGA的布局与布线技术研究综述
专知会员服务
26+阅读 · 2022年9月3日
深度神经网络 FPGA 设计进展、实现与展望
专知会员服务
59+阅读 · 2022年3月26日
深度神经网络FPGA设计进展、实现与展望
专知会员服务
36+阅读 · 2022年3月21日
FPGA加速系统开发工具设计:综述与实践
专知会员服务
69+阅读 · 2020年6月24日
TensorFlow Lite指南实战《TensorFlow Lite A primer》,附48页PPT
专知会员服务
70+阅读 · 2020年1月17日
CALDERA 一款对手自动模拟工具
黑白之道
20+阅读 · 2019年9月17日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月29日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员