Achieving high performance, energy efficiency, and cost-effectiveness while maintaining architectural flexibility is a critical challenge in the development and deployment of edge AI devices. Monolithic SoC designs struggle with this complex balance mainly due to low manufacturing yields (below 16%) at advanced 360 mm^2 process nodes. This paper presents a novel chiplet-based RISC-V SoC architecture that addresses these limitations through modular AI acceleration and intelligent system level optimization. Our proposed design integrates 4 different key innovations in a 30mm x 30mm silicon interposer: adaptive cross-chiplet Dynamic Voltage and Frequency Scaling (DVFS); AI-aware Universal Chiplet Interconnect Express (UCIe) protocol extensions featuring streaming flow control units and compression-aware transfers; distributed cryptographic security across heterogeneous chiplets; and intelligent sensor-driven load migration. The proposed architecture integrates a 7nm RISC-V CPU chiplet with dual 5nm AI accelerators (15 TOPS INT8 each), 16GB HBM3 memory stacks, and dedicated power management controllers. Experimental results across industry standard benchmarks like MobileNetV2, ResNet-50 and real-time video processing demonstrate significant performance improvements. The AI-optimized configuration achieves ~14.7% latency reduction, 17.3% throughput improvement, and 16.2% power reduction compared to previous basic chiplet implementations. These improvements collectively translate to a 40.1% efficiency gain corresponding to ~3.5 mJ per MobileNetV2 inference (860 mW/244 images/s), while maintaining sub-5ms real-time capability across all experimented workloads. These performance upgrades demonstrate that modular chiplet designs can achieve near-monolithic computational density while enabling cost efficiency, scalability and upgradeability, crucial for next-generation edge AI device applications.


翻译:在边缘AI设备的开发与部署中,实现高性能、高能效与成本效益的平衡同时保持架构灵活性是一项关键挑战。传统单片SoC设计难以实现这一复杂平衡,主要原因是先进360 mm²工艺节点的制造良率较低(低于16%)。本文提出了一种新型基于芯粒的RISC-V SoC架构,通过模块化AI加速与智能系统级优化来克服这些限制。我们的设计方案在30mm×30mm硅中介层上集成了4项关键创新:跨芯粒自适应动态电压频率缩放(DVFS)、具备流控单元与压缩感知传输特性的AI感知通用芯粒互连协议(UCIe)扩展、异构芯粒间的分布式加密安全机制,以及智能传感器驱动的负载迁移。该架构集成了7nm RISC-V CPU芯粒、双5nm AI加速器(各15 TOPS INT8)、16GB HBM3内存堆叠以及专用电源管理控制器。基于MobileNetV2、ResNet-50等工业标准基准测试及实时视频处理的实验结果表明,性能显著提升。与先前基础芯粒实现相比,AI优化配置实现了约14.7%的延迟降低、17.3%的吞吐量提升和16.2%的功耗降低。这些改进综合带来了40.1%的效率增益,对应MobileNetV2推理约3.5 mJ(860 mW/244 images/s),同时所有实验负载均保持亚5ms实时处理能力。这些性能提升表明,模块化芯粒设计能够在实现近单片计算密度的同时,提供成本效益、可扩展性与可升级性,这对下一代边缘AI设备应用至关重要。

0
下载
关闭预览

相关内容

《面向边缘AI应用的高性能高能效架构探索》156页
专知会员服务
36+阅读 · 2025年4月12日
边缘AI行业深度:边缘AI硬件,引领硬件创新时代
专知会员服务
51+阅读 · 2024年4月18日
AI大模型风起云涌,半导体与光模块长期受益
专知会员服务
30+阅读 · 2024年3月14日
片上系统SOC芯片研究框架,93页ppt
专知会员服务
108+阅读 · 2022年9月12日
专知会员服务
19+阅读 · 2021年6月29日
专知会员服务
66+阅读 · 2021年5月2日
《“边缘计算+”技术白皮书》,82页pdf
专知
11+阅读 · 2022年8月28日
盘点来自工业界的GPU共享方案
计算机视觉life
12+阅读 · 2021年9月2日
硬件加速神经网络综述
计算机研究与发展
26+阅读 · 2019年2月1日
AI综述专栏 | 深度神经网络加速与压缩
人工智能前沿讲习班
32+阅读 · 2018年10月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关主题
最新内容
AutoScientists:自组织智能体团队驱动长期科学实验
战略前沿人工智能的再思考(中文)
专知会员服务
3+阅读 · 今天14:53
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
3+阅读 · 今天14:51
“史诗怒火行动”中美军损失的作战飞机
专知会员服务
2+阅读 · 今天14:38
ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
5+阅读 · 5月28日
Agent Harness综述:大模型智能体执行器工程全景
专知会员服务
13+阅读 · 5月28日
《基于理论的威慑效能评估》
专知会员服务
8+阅读 · 5月28日
相关VIP内容
《面向边缘AI应用的高性能高能效架构探索》156页
专知会员服务
36+阅读 · 2025年4月12日
边缘AI行业深度:边缘AI硬件,引领硬件创新时代
专知会员服务
51+阅读 · 2024年4月18日
AI大模型风起云涌,半导体与光模块长期受益
专知会员服务
30+阅读 · 2024年3月14日
片上系统SOC芯片研究框架,93页ppt
专知会员服务
108+阅读 · 2022年9月12日
专知会员服务
19+阅读 · 2021年6月29日
专知会员服务
66+阅读 · 2021年5月2日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员