CODO: An Automated Compiler for Comprehensive Dataflow Optimization - 专知论文

会员服务 ·

0

数据流 · 编译器 · FPGA · 粒度 · 自动化 ·

CODO: An Automated Compiler for Comprehensive Dataflow Optimization

翻译：CODO：面向全面数据流优化的自动化编译器

Weichuang Zhang,Yiquan Wang,Xinzhou Zhang,Chi Zhang,Yu Feng,Xiaofeng Hou,Chao Li,Jieru Zhao,Minyi Guo

from arxiv, Accepted by ISCA 2026

FPGAs are well-suited for dataflow architectures that process data in a streaming or pipelined manner, thus satisfying the high computational and communication demands of emerging applications. However, manually implementing an efficient dataflow architecture for large-scale applications is still challenging, even for specialists who use high-level synthesis (HLS) to simplify FPGA programming. To address this, we introduce CODO, an automated compiler that generates feasible and efficient dataflow accelerators on FPGAs. CODO features a systematic method for detecting and eliminating both coarse-grained and fine-grained dataflow violations. Building on this, CODO performs both on- and off-chip data movement optimizations to maximize transfer efficiency. To guarantee a higher design quality, CODO performs automatic scheduling to generate high-performance dataflow accelerators, ensuring a balanced performance-resource trade-off. Synthesis results show that CODO delivers $1.45\times$ to $4.52\times$ latency speedups on typical computation kernels and $3.7\times$ to $33.8\times$ speedups on DNN models compared to SOTA frameworks. In on-board evaluations, CODO achieves $7.3\times$ average speedup on CNN models and $2.07\times$ average speedup on the GPT-2 model over SOTA frameworks. The compiler is open-sourced at https://github.com/sjtu-zhao-lab/codo-artifact.

翻译：FPGA非常适合于以流式或流水线方式处理数据的流式架构，从而满足新兴应用对高计算量和通信量的需求。然而，即便对于使用高层次综合（HLS）来简化FPGA编程的专家而言，为大规模应用手动实现高效的流式架构仍然具有挑战性。为此，我们提出CODO，一种能在FPGA上自动生成可行且高效的数据流加速器的编译器。CODO提出了一种系统性的方法来检测和消除粗粒度和细粒度两类数据流违规。在此基础上，CODO执行片上与片外数据移动优化，以最大化传输效率。为保证更高的设计质量，CODO进行自动调度以生成高性能的数据流加速器，确保性能与资源之间的平衡权衡。综合结果表明，与现有最先进框架相比，CODO在典型计算核上实现了$1.45\times$至$4.52\times$的延迟加速，在深度神经网络（DNN）模型上实现了$3.7\times$至$33.8\times$的加速。在板级评估中，CODO在卷积神经网络（CNN）模型上比现有最先进框架平均快$7.3\times$，在GPT-2模型上平均快$2.07\times$。该编译器已在https://github.com/sjtu-zhao-lab/codo-artifact开源。

0

相关内容

数据流

数据流

PaperOrchestra：一种面向自动化 AI 学术论文撰写的多智能体框架

PaperOrchestra：一种面向自动化 AI 学术论文撰写的多智能体框架

专知会员服务

13+阅读 · 4月9日

《COA-GPT 2.0：加速军事决策流程的代理式人工智能规划工具》

《COA-GPT 2.0：加速军事决策流程的代理式人工智能规划工具》

专知会员服务

56+阅读 · 2025年11月10日

《面向道义推理DevOps的人类-人工智能交流（CODORD）》DARPA项目slides

《面向道义推理DevOps的人类-人工智能交流（CODORD）》DARPA项目slides

专知会员服务

22+阅读 · 2024年11月18日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

【牛津大学博士论文】变分自编码器: 监督、校准和多模态学习的变分自编码器，179页pdf

【牛津大学博士论文】变分自编码器: 监督、校准和多模态学习的变分自编码器，179页pdf

专知会员服务

38+阅读 · 2023年6月21日

基于机器学习的FPGA电子设计自动化技术研究综述

基于机器学习的FPGA电子设计自动化技术研究综述

专知会员服务

21+阅读 · 2022年11月22日

【Google大脑Mangpo】自动调优生产机器学习编译器

【Google大脑Mangpo】自动调优生产机器学习编译器

专知会员服务

14+阅读 · 2022年7月6日

【重磅推荐】量化金融自动交易的深度强化学习库。哥大开源“FinRL”:

【重磅推荐】量化金融自动交易的深度强化学习库。哥大开源“FinRL”:

专知会员服务

73+阅读 · 2021年3月27日

【2020新书】数据并行C++，掌握使用c++和SYCL编写异构系统的dpc++，565页pdf

【2020新书】数据并行C++，掌握使用c++和SYCL编写异构系统的dpc++，565页pdf

专知会员服务

39+阅读 · 2020年12月8日

TensorFlow官方开源的神经结构学习（Neural Structured Learning）库

TensorFlow官方开源的神经结构学习（Neural Structured Learning）库

专知会员服务

18+阅读 · 2019年10月18日

综述：军事应用中使用的一些重要算法

综述：军事应用中使用的一些重要算法

专知

13+阅读 · 2022年7月3日

PyTorch 单机多卡操作总结：分布式DataParallel，混合精度，Horovod)

PyTorch 单机多卡操作总结：分布式DataParallel，混合精度，Horovod)

极市平台

19+阅读 · 2020年10月18日

【大数据】StreamSets：一个大数据采集工具

【大数据】StreamSets：一个大数据采集工具

产业智能官

40+阅读 · 2018年12月5日

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

GAN生成式对抗网络

11+阅读 · 2018年6月5日

最全数据科学学习资源：Python、线性代数、机器学习...

最全数据科学学习资源：Python、线性代数、机器学习...

人工智能头条

12+阅读 · 2018年5月14日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

变分自编码器VAE：原来是这么一回事 | 附开源代码

变分自编码器VAE：原来是这么一回事 | 附开源代码

PaperWeekly

12+阅读 · 2018年3月23日

视频 | 论文最爱的变分自编码器（ VAE），不了解一下？

视频 | 论文最爱的变分自编码器（ VAE），不了解一下？

AI科技评论

13+阅读 · 2018年3月17日

【干货】深入理解自编码器（附代码实现）

【干货】深入理解自编码器（附代码实现）

专知

136+阅读 · 2018年3月9日

深度文本匹配开源工具（MatchZoo）

深度文本匹配开源工具（MatchZoo）

机器学习研究会

10+阅读 · 2017年12月5日

基于略图挖掘的在不同时空域的网络流式数据实时处理

国家自然科学基金

1+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

弹性QoS的快速多目标优化软件定义卫星网络流控制方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

嵌入式异构多核系统应用程序自动并行化过程关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向可重构多核处理器系统的分层次自适应优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

多数据中心环境中科学大数据应用的数据布局与执行优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

云环境中支持混合并行模式的科学工作流的执行优化

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

MailoHLS: Multi-Adapter Structure-Aware Learning for Pareto-Driven HLS Pragma Optimization

Arxiv

0+阅读 · 6月5日

DataEvolver: Automatic Data Preparation for Large Language Models through Multi-Level Self-Evolving

Arxiv

0+阅读 · 6月5日

CUCo: An Agentic Framework for Compute and Communication Co-design

Arxiv

0+阅读 · 6月3日

Caspar: CUDA Accelerator for Symbolic Programming with Adaptive Reordering

Arxiv

0+阅读 · 5月28日

TraceCodec: A Compiler-Backed Neural Codec for Stateful Multi-Flow Network Traffic Traces

Arxiv

0+阅读 · 5月28日

CompilerDream: Learning a Compiler World Model for General Code Optimization

Arxiv

0+阅读 · 5月28日

Chat2Workflow: A Benchmark for Generating Executable Visual Workflows with Natural Language

Arxiv

0+阅读 · 5月26日

CARMEN: CORDIC-Accelerated Resource-Efficient Multi-Precision Inference Engine for Deep Learning

Arxiv

0+阅读 · 5月7日

Coral: Cost-Efficient Multi-LLM Serving over Heterogeneous Cloud GPUs

Arxiv

0+阅读 · 5月5日

VDCores: Resource Decoupled Programming and Execution for Asynchronous GPU

Arxiv

0+阅读 · 5月4日

VIP会员

文章信息

相关主题

最新内容

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

1+阅读 · 今天16:54

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

1+阅读 · 今天16:52

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

6+阅读 · 今天8:00

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

5+阅读 · 今天7:44

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

4+阅读 · 今天7:28

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

4+阅读 · 今天7:18

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

5+阅读 · 今天7:07

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

4+阅读 · 今天7:03

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

4+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

6+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

10+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

4+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

5+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

8+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

7+阅读 · 6月23日

相关VIP内容

PaperOrchestra：一种面向自动化 AI 学术论文撰写的多智能体框架

PaperOrchestra：一种面向自动化 AI 学术论文撰写的多智能体框架

专知会员服务

13+阅读 · 4月9日

《COA-GPT 2.0：加速军事决策流程的代理式人工智能规划工具》

《COA-GPT 2.0：加速军事决策流程的代理式人工智能规划工具》

专知会员服务

56+阅读 · 2025年11月10日

《面向道义推理DevOps的人类-人工智能交流（CODORD）》DARPA项目slides

《面向道义推理DevOps的人类-人工智能交流（CODORD）》DARPA项目slides

专知会员服务

22+阅读 · 2024年11月18日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

【牛津大学博士论文】变分自编码器: 监督、校准和多模态学习的变分自编码器，179页pdf

【牛津大学博士论文】变分自编码器: 监督、校准和多模态学习的变分自编码器，179页pdf

专知会员服务

38+阅读 · 2023年6月21日

基于机器学习的FPGA电子设计自动化技术研究综述

基于机器学习的FPGA电子设计自动化技术研究综述

专知会员服务

21+阅读 · 2022年11月22日

【Google大脑Mangpo】自动调优生产机器学习编译器

【Google大脑Mangpo】自动调优生产机器学习编译器

专知会员服务

14+阅读 · 2022年7月6日

【重磅推荐】量化金融自动交易的深度强化学习库。哥大开源“FinRL”:

【重磅推荐】量化金融自动交易的深度强化学习库。哥大开源“FinRL”:

专知会员服务

73+阅读 · 2021年3月27日

【2020新书】数据并行C++，掌握使用c++和SYCL编写异构系统的dpc++，565页pdf

【2020新书】数据并行C++，掌握使用c++和SYCL编写异构系统的dpc++，565页pdf

专知会员服务

39+阅读 · 2020年12月8日

TensorFlow官方开源的神经结构学习（Neural Structured Learning）库

TensorFlow官方开源的神经结构学习（Neural Structured Learning）库

专知会员服务

18+阅读 · 2019年10月18日

热门VIP内容

开通专知VIP会员享更多权益服务

Agentic RL：框架、实践与长程智能体训练

重新思考无人机时代的生存能力

综述 | 从问答到任务完成：Agent系统与Harness设计

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

相关资讯

综述：军事应用中使用的一些重要算法

综述：军事应用中使用的一些重要算法

专知

13+阅读 · 2022年7月3日

PyTorch 单机多卡操作总结：分布式DataParallel，混合精度，Horovod)

PyTorch 单机多卡操作总结：分布式DataParallel，混合精度，Horovod)

极市平台

19+阅读 · 2020年10月18日

【大数据】StreamSets：一个大数据采集工具

【大数据】StreamSets：一个大数据采集工具

产业智能官

40+阅读 · 2018年12月5日

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

GAN生成式对抗网络

11+阅读 · 2018年6月5日

最全数据科学学习资源：Python、线性代数、机器学习...

最全数据科学学习资源：Python、线性代数、机器学习...

人工智能头条

12+阅读 · 2018年5月14日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

变分自编码器VAE：原来是这么一回事 | 附开源代码

变分自编码器VAE：原来是这么一回事 | 附开源代码

PaperWeekly

12+阅读 · 2018年3月23日

视频 | 论文最爱的变分自编码器（ VAE），不了解一下？

视频 | 论文最爱的变分自编码器（ VAE），不了解一下？

AI科技评论

13+阅读 · 2018年3月17日

【干货】深入理解自编码器（附代码实现）

【干货】深入理解自编码器（附代码实现）

专知

136+阅读 · 2018年3月9日

深度文本匹配开源工具（MatchZoo）

深度文本匹配开源工具（MatchZoo）

机器学习研究会

10+阅读 · 2017年12月5日

相关论文

MailoHLS: Multi-Adapter Structure-Aware Learning for Pareto-Driven HLS Pragma Optimization

Arxiv

0+阅读 · 6月5日

DataEvolver: Automatic Data Preparation for Large Language Models through Multi-Level Self-Evolving

Arxiv

0+阅读 · 6月5日

CUCo: An Agentic Framework for Compute and Communication Co-design

Arxiv

0+阅读 · 6月3日

Caspar: CUDA Accelerator for Symbolic Programming with Adaptive Reordering

Arxiv

0+阅读 · 5月28日

TraceCodec: A Compiler-Backed Neural Codec for Stateful Multi-Flow Network Traffic Traces

Arxiv

0+阅读 · 5月28日

CompilerDream: Learning a Compiler World Model for General Code Optimization

Arxiv

0+阅读 · 5月28日

Chat2Workflow: A Benchmark for Generating Executable Visual Workflows with Natural Language

Arxiv

0+阅读 · 5月26日

CARMEN: CORDIC-Accelerated Resource-Efficient Multi-Precision Inference Engine for Deep Learning

Arxiv

0+阅读 · 5月7日

Coral: Cost-Efficient Multi-LLM Serving over Heterogeneous Cloud GPUs

Arxiv

0+阅读 · 5月5日

VDCores: Resource Decoupled Programming and Execution for Asynchronous GPU

Arxiv

0+阅读 · 5月4日

相关基金

基于略图挖掘的在不同时空域的网络流式数据实时处理

国家自然科学基金

1+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

弹性QoS的快速多目标优化软件定义卫星网络流控制方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

嵌入式异构多核系统应用程序自动并行化过程关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向可重构多核处理器系统的分层次自适应优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

多数据中心环境中科学大数据应用的数据布局与执行优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

云环境中支持混合并行模式的科学工作流的执行优化

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员