Graphics processing units (GPUs) excel at parallel processing, but remain largely unexplored in ultra-low-power edge devices (TinyAI) due to their power and area limitations, as well as the lack of suitable programming frameworks. To address these challenges, this work introduces embedded GPU (e-GPU), an open-source and configurable RISC-V GPU platform designed for TinyAI devices. Its extensive configurability enables area and power optimization, while a dedicated Tiny-OpenCL implementation provides a lightweight programming framework tailored to resource-constrained environments. To demonstrate its adaptability in real-world scenarios, we integrate the e-GPU with the eXtendible Heterogeneous Energy-Efficient Platform (X-HEEP) to realize an accelerated processing unit (APU) for TinyAI applications. Multiple instances of the proposed system, featuring varying e-GPU configurations, are implemented in TSMC's 16 nm SVT CMOS technology and are operated at 300 MHz and 0.8 V. Their area and leakage characteristics are analyzed to ensure alignment with TinyAI constraints. To assess both runtime overheads and computational efficiency, we employ two benchmarks: General Matrix Multiply (GeMM) and bio-signal processing (TinyBio) workloads. The GeMM benchmark is used to quantify the scheduling overhead introduced by the Tiny-OpenCL framework. The results show that the delay becomes negligible for matrix sizes larger than 256x256 (or equivalent problem sizes). The TinyBio benchmark is then used to evaluate performance and energy improvements over the baseline host under pure processing conditions. The results indicate that the high-range e-GPU configuration with 16 threads achieves up to a 15.1x speed-up and reduces energy consumption by up to 3.1x, while incurring only a 2.5x area overhead and operating within a 28 mW power budget.


翻译:图形处理单元(GPU)擅长并行处理,但由于功耗和面积限制以及缺乏合适的编程框架,在超低功耗边缘设备(TinyAI)中仍未得到充分探索。为应对这些挑战,本研究提出了嵌入式GPU(e-GPU),一个专为TinyAI设备设计的开源可配置RISC-V GPU平台。其广泛的可配置性支持面积与功耗优化,同时通过专用的Tiny-OpenCL实现提供了适配资源受限环境的轻量级编程框架。为展示其在真实场景中的适应性,我们将e-GPU与可扩展异构能效平台(X-HEEP)集成,构建了面向TinyAI应用的加速处理单元(APU)。采用不同e-GPU配置的多个系统实例基于台积电16 nm SVT CMOS工艺实现,工作频率为300 MHz,电压为0.8 V。通过分析其面积与漏电特性,确保其符合TinyAI的约束条件。为评估运行时开销与计算效率,我们采用了两类基准测试:通用矩阵乘法(GeMM)和生物信号处理(TinyBio)工作负载。GeMM基准用于量化Tiny-OpenCL框架引入的调度开销,结果表明当矩阵尺寸大于256x256(或等效问题规模)时,该延迟可忽略不计。TinyBio基准则用于评估纯处理条件下相较于基线主机的性能与能效提升。结果显示,配备16线程的高端e-GPU配置可实现最高15.1倍的加速,能耗降低达3.1倍,而面积开销仅为2.5倍,且功耗预算控制在28 mW以内。

0
下载
关闭预览

相关内容

MIT韩松等最新《微型机器学习TinyML: 进展与未来》综述
专知会员服务
42+阅读 · 2024年3月29日
面向多GPU的图神经网络训练加速
专知会员服务
24+阅读 · 2023年1月19日
盘点来自工业界的GPU共享方案
计算机视觉life
12+阅读 · 2021年9月2日
【GNN】深度学习之上,图神经网络(GNN )崛起
产业智能官
16+阅读 · 2019年8月15日
Github热门图深度学习(GraphDL)源码与框架
新智元
21+阅读 · 2019年3月19日
深度学习的GPU:深度学习中使用GPU的经验和建议
数据挖掘入门与实战
11+阅读 · 2018年1月3日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月23日
VIP会员
最新内容
AutoScientists:自组织智能体团队驱动长期科学实验
战略前沿人工智能的再思考(中文)
专知会员服务
3+阅读 · 今天14:53
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
3+阅读 · 今天14:51
“史诗怒火行动”中美军损失的作战飞机
专知会员服务
2+阅读 · 今天14:38
ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
5+阅读 · 5月28日
Agent Harness综述:大模型智能体执行器工程全景
专知会员服务
13+阅读 · 5月28日
《基于理论的威慑效能评估》
专知会员服务
8+阅读 · 5月28日
相关VIP内容
MIT韩松等最新《微型机器学习TinyML: 进展与未来》综述
专知会员服务
42+阅读 · 2024年3月29日
面向多GPU的图神经网络训练加速
专知会员服务
24+阅读 · 2023年1月19日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员