DPUConfig: Optimizing ML Inference in FPGAs Using Reinforcement Learning - 专知论文

会员服务 ·

0

FPGA · 机器学习推理 · 学习推理 · 系统 · 推理优化 ·

DPUConfig: Optimizing ML Inference in FPGAs Using Reinforcement Learning

翻译：DPUConfig：基于强化学习的FPGA机器学习推理优化框架

Alexandros Patras,Spyros Lalis,Christos D. Antonopoulos,Nikolaos Bellas

from arxiv, 8 pages, 6 figures, to appear in the proceedings of DATE 2026

Heterogeneous embedded systems, with diverse computing elements and accelerators such as FPGAs, offer a promising platform for fast and flexible ML inference, which is crucial for services such as autonomous driving and augmented reality, where delays can be costly. However, efficiently allocating computational resources for deep learning applications in FPGA-based systems is a challenging task. A Deep Learning Processor Unit (DPU) is a parameterizable FPGA-based accelerator module optimized for ML inference. It supports a wide range of ML models and can be instantiated multiple times within a single FPGA to enable concurrent execution. This paper introduces DPUConfig, a novel runtime management framework, based on a custom Reinforcement Learning (RL) agent, that dynamically selects optimal DPU configurations by leveraging real-time telemetry data monitoring, system utilization, power consumption, and application performance to inform its configuration selection decisions. The experimental evaluation demonstrates that the RL agent achieves energy efficiency 95% (on average) of the optimal attainable energy efficiency for several CNN models on the Xilinx Zynq UltraScale+ MPSoC ZCU102.

翻译：异构嵌入式系统集成了多样化的计算单元与FPGA等加速器，为快速灵活的机器学习推理提供了理想平台，这对自动驾驶和增强现实等延迟敏感型服务至关重要。然而，在基于FPGA的系统中为深度学习应用高效分配计算资源仍具挑战性。深度学习处理器单元（DPU）是一种可参数化的基于FPGA的加速器模块，专为机器学习推理优化设计。它支持广泛的机器学习模型，并可在单个FPGA内多次实例化以实现并行执行。本文提出DPUConfig——一种基于定制强化学习（RL）智能体的新型运行时管理框架，该框架通过实时遥测数据监测、系统利用率、功耗和应用程序性能来动态选择最优DPU配置。实验评估表明，在Xilinx Zynq UltraScale+ MPSoC ZCU102平台上，针对多种CNN模型，该强化学习智能体实现的能效平均可达理论最优能效的95%。

0

相关内容

FPGA

FPGA：ACM/SIGDA International Symposium on Field-Programmable Gate Arrays。 Explanation：ACM/SIGDA现场可编程门阵列国际研讨会。 Publisher：ACM。 SIT： http://dblp.uni-trier.de/db/conf/fpga/

可解释的机器学习模型和架构

可解释的机器学习模型和架构

专知会员服务

92+阅读 · 2023年9月17日

DPU发展分析报告（2022年），44页pdf

DPU发展分析报告（2022年），44页pdf

专知会员服务

26+阅读 · 2023年1月13日

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

专知会员服务

46+阅读 · 2022年5月27日

深度神经网络 FPGA 设计进展、实现与展望

深度神经网络 FPGA 设计进展、实现与展望

专知会员服务

59+阅读 · 2022年3月26日

深度神经网络FPGA设计进展、实现与展望

深度神经网络FPGA设计进展、实现与展望

专知会员服务

36+阅读 · 2022年3月21日

深度学习如何规模化？GMU微软等最新《大规模深度学习服务系统优化研究》综述论文，阐述大规模深度学习推理系统优化挑战与机遇

深度学习如何规模化？GMU微软等最新《大规模深度学习服务系统优化研究》综述论文，阐述大规模深度学习推理系统优化挑战与机遇

专知会员服务

33+阅读 · 2021年12月5日

中科院计算所牵头发布《专⽤数据处理器DPU技术白皮书》，94页pdf

中科院计算所牵头发布《专⽤数据处理器DPU技术白皮书》，94页pdf

专知会员服务

91+阅读 · 2021年10月24日

【伯利克博士论文】深度学习应用的算法、硬件和调度的协同设计，161页pdf

【伯利克博士论文】深度学习应用的算法、硬件和调度的协同设计，161页pdf

专知会员服务

77+阅读 · 2021年8月18日

【百度】-大规模深度学习广告系统的分布式分层GPU参数服务器，Distributed Hierarchical GPU PS

专知会员服务

24+阅读 · 2020年3月15日

【深度学习架构、模型和技巧集合(TensorFlow/PyTorch)】’Deep Learning Models - A collection of various deep learning architectures, models, and tips'

【深度学习架构、模型和技巧集合(TensorFlow/PyTorch)】’Deep Learning Models - A collection of various deep learning architectures, models, and tips'

专知会员服务

59+阅读 · 2020年1月25日

干货教程！百度AutoDL「自动深度学习: 理论、算法、平台和应用」132PPT

干货教程！百度AutoDL「自动深度学习: 理论、算法、平台和应用」132PPT

专知

21+阅读 · 2020年2月5日

最新基于FPGA的深度学习加速器综述论文（附下载）

最新基于FPGA的深度学习加速器综述论文（附下载）

专知

23+阅读 · 2019年1月17日

深度强化学习简介

深度强化学习简介

专知

30+阅读 · 2018年12月3日

每日论文 | 图形深度神经网络并行框架NGra；用人类注意力进行序列分类；针对多智能体协作的图卷积强化学习

每日论文 | 图形深度神经网络并行框架NGra；用人类注意力进行序列分类；针对多智能体协作的图卷积强化学习

论智

26+阅读 · 2018年10月30日

DeepMind：用PopArt进行多任务深度强化学习

DeepMind：用PopArt进行多任务深度强化学习

论智

30+阅读 · 2018年9月14日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

Github 项目推荐 | Nvidia 用于数据增强和 JPEG 图像解码的 GPU 加速库 DALI

Github 项目推荐 | Nvidia 用于数据增强和 JPEG 图像解码的 GPU 加速库 DALI

AI研习社

11+阅读 · 2018年6月27日

深度学习开发必备开源框架

深度学习开发必备开源框架

九章算法

12+阅读 · 2018年5月30日

深度学习的GPU：深度学习中使用GPU的经验和建议

深度学习的GPU：深度学习中使用GPU的经验和建议

数据挖掘入门与实战

11+阅读 · 2018年1月3日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

基于GPU的几类分数阶微分方程的并行算法研究及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

嵌入式异构多核系统应用程序自动并行化过程关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于强化学习的分布参数系统数据驱动控制

国家自然科学基金

7+阅读 · 2015年12月31日

面向高性能异构众核架构的大规模CFD并行算法与应用

国家自然科学基金

0+阅读 · 2015年12月31日

神经形态多核处理器的架构模型研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向可重构多核处理器系统的分层次自适应优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

COHORT: Hybrid RL for Collaborative Large DNN Inference on Multi-Robot Systems Under Real-Time Constraints

Arxiv

0+阅读 · 3月11日

Continuous-Flow Data-Rate-Aware CNN Inference on FPGA

Arxiv

0+阅读 · 3月7日

DeepCompile: A Compiler-Driven Approach to Optimizing Distributed Deep Learning Training

Arxiv

0+阅读 · 2月19日

GDEV-AI: A Generalized Evaluation of Deep Learning Inference Scaling and Architectural Saturation

Arxiv

0+阅读 · 2月18日

Accelerating Mobile Inference through Fine-Grained CPU-GPU Co-Execution

Arxiv

0+阅读 · 2月18日

Hardware-accelerated graph neural networks: an alternative approach for neuromorphic event-based audio classification and keyword spotting on SoC FPGA

Arxiv

0+阅读 · 2月18日

Batch-CAM: Introduction to better reasoning in convolutional deep learning models

Arxiv

0+阅读 · 2月13日

MING: An Automated CNN-to-Edge MLIR HLS framework

Arxiv

0+阅读 · 2月12日

BitLogic: Training Framework for Gradient-Based FPGA-Native Neural Networks

Arxiv

0+阅读 · 2月7日

A Parameterizable Convolution Accelerator for Embedded Deep Learning Applications

Arxiv

0+阅读 · 2月3日

VIP会员

文章信息

相关主题

机器学习推理

最新内容

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

2+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

4+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

5+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

6+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

10+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

10+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

13+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

8+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

10+阅读 · 6月17日

相关VIP内容

可解释的机器学习模型和架构

可解释的机器学习模型和架构

专知会员服务

92+阅读 · 2023年9月17日

DPU发展分析报告（2022年），44页pdf

DPU发展分析报告（2022年），44页pdf

专知会员服务

26+阅读 · 2023年1月13日

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

专知会员服务

46+阅读 · 2022年5月27日

深度神经网络 FPGA 设计进展、实现与展望

深度神经网络 FPGA 设计进展、实现与展望

专知会员服务

59+阅读 · 2022年3月26日

深度神经网络FPGA设计进展、实现与展望

深度神经网络FPGA设计进展、实现与展望

专知会员服务

36+阅读 · 2022年3月21日

深度学习如何规模化？GMU微软等最新《大规模深度学习服务系统优化研究》综述论文，阐述大规模深度学习推理系统优化挑战与机遇

深度学习如何规模化？GMU微软等最新《大规模深度学习服务系统优化研究》综述论文，阐述大规模深度学习推理系统优化挑战与机遇

专知会员服务

33+阅读 · 2021年12月5日

中科院计算所牵头发布《专⽤数据处理器DPU技术白皮书》，94页pdf

中科院计算所牵头发布《专⽤数据处理器DPU技术白皮书》，94页pdf

专知会员服务

91+阅读 · 2021年10月24日

【伯利克博士论文】深度学习应用的算法、硬件和调度的协同设计，161页pdf

【伯利克博士论文】深度学习应用的算法、硬件和调度的协同设计，161页pdf

专知会员服务

77+阅读 · 2021年8月18日

【百度】-大规模深度学习广告系统的分布式分层GPU参数服务器，Distributed Hierarchical GPU PS

专知会员服务

24+阅读 · 2020年3月15日

【深度学习架构、模型和技巧集合(TensorFlow/PyTorch)】’Deep Learning Models - A collection of various deep learning architectures, models, and tips'

【深度学习架构、模型和技巧集合(TensorFlow/PyTorch)】’Deep Learning Models - A collection of various deep learning architectures, models, and tips'

专知会员服务

59+阅读 · 2020年1月25日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

相关资讯

干货教程！百度AutoDL「自动深度学习: 理论、算法、平台和应用」132PPT

干货教程！百度AutoDL「自动深度学习: 理论、算法、平台和应用」132PPT

专知

21+阅读 · 2020年2月5日

最新基于FPGA的深度学习加速器综述论文（附下载）

最新基于FPGA的深度学习加速器综述论文（附下载）

专知

23+阅读 · 2019年1月17日

深度强化学习简介

深度强化学习简介

专知

30+阅读 · 2018年12月3日

每日论文 | 图形深度神经网络并行框架NGra；用人类注意力进行序列分类；针对多智能体协作的图卷积强化学习

每日论文 | 图形深度神经网络并行框架NGra；用人类注意力进行序列分类；针对多智能体协作的图卷积强化学习

论智

26+阅读 · 2018年10月30日

DeepMind：用PopArt进行多任务深度强化学习

DeepMind：用PopArt进行多任务深度强化学习

论智

30+阅读 · 2018年9月14日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

Github 项目推荐 | Nvidia 用于数据增强和 JPEG 图像解码的 GPU 加速库 DALI

Github 项目推荐 | Nvidia 用于数据增强和 JPEG 图像解码的 GPU 加速库 DALI

AI研习社

11+阅读 · 2018年6月27日

深度学习开发必备开源框架

深度学习开发必备开源框架

九章算法

12+阅读 · 2018年5月30日

深度学习的GPU：深度学习中使用GPU的经验和建议

深度学习的GPU：深度学习中使用GPU的经验和建议

数据挖掘入门与实战

11+阅读 · 2018年1月3日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

COHORT: Hybrid RL for Collaborative Large DNN Inference on Multi-Robot Systems Under Real-Time Constraints

Arxiv

0+阅读 · 3月11日

Continuous-Flow Data-Rate-Aware CNN Inference on FPGA

Arxiv

0+阅读 · 3月7日

DeepCompile: A Compiler-Driven Approach to Optimizing Distributed Deep Learning Training

Arxiv

0+阅读 · 2月19日

GDEV-AI: A Generalized Evaluation of Deep Learning Inference Scaling and Architectural Saturation

Arxiv

0+阅读 · 2月18日

Accelerating Mobile Inference through Fine-Grained CPU-GPU Co-Execution

Arxiv

0+阅读 · 2月18日

Hardware-accelerated graph neural networks: an alternative approach for neuromorphic event-based audio classification and keyword spotting on SoC FPGA

Arxiv

0+阅读 · 2月18日

Batch-CAM: Introduction to better reasoning in convolutional deep learning models

Arxiv

0+阅读 · 2月13日

MING: An Automated CNN-to-Edge MLIR HLS framework

Arxiv

0+阅读 · 2月12日

BitLogic: Training Framework for Gradient-Based FPGA-Native Neural Networks

Arxiv

0+阅读 · 2月7日

A Parameterizable Convolution Accelerator for Embedded Deep Learning Applications

Arxiv

0+阅读 · 2月3日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

基于GPU的几类分数阶微分方程的并行算法研究及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

嵌入式异构多核系统应用程序自动并行化过程关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于强化学习的分布参数系统数据驱动控制

国家自然科学基金

7+阅读 · 2015年12月31日

面向高性能异构众核架构的大规模CFD并行算法与应用

国家自然科学基金

0+阅读 · 2015年12月31日

神经形态多核处理器的架构模型研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向可重构多核处理器系统的分层次自适应优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员