We present the first end-to-end deployment of the Gemma3 family of large language and vision models on a tiled edge dataflow architecture (AMD Ryzen AI NPU). Our work introduces a set of hardware-aware techniques. For prefill, we introduce an efficient dequantization engine, optimize tiled matrix multiplication kernels, and propose FlowQKV, a chunked, pipelined attention mechanism. For decoding, we introduce FusedDQP, which fuses dequantization and projection into a single kernel, and FlowKV, which re-structures attention to sustain high memory bandwidth utilization. Together with a compact Q4NX 4-bit quantization format, these methods yield up to $5.2\times$ faster prefill and $4.8\times$ faster decoding versus the iGPU, and $33.5\times$ and $2.2\times$ over the CPU, respectively. Power efficiency improves by as much as $67.2\times$ and $222.9\times$ compared to the iGPU and CPU. The proposed approach demonstrates that modern NPUs can deliver practical, low-power LLM and VLM inference at the edge, and provides a generalizable blueprint for mapping transformer-based models onto tiled dataflow accelerators.


翻译:本文首次实现了Gemma3系列大型语言与视觉模型在分片边缘数据流架构(AMD Ryzen AI NPU)上的端到端部署。我们提出了一系列硬件感知技术:在预填充阶段,设计了高效反量化引擎,优化了分片矩阵乘法内核,并提出了FlowQKV——一种分块流水线注意力机制;在解码阶段,提出了将反量化与投影融合为单一内核的FusedDQP技术,以及通过重构注意力机制实现高内存带宽持续利用的FlowKV方法。结合紧凑的Q4NX 4位量化格式,这些技术使预填充速度较iGPU提升最高达$5.2\times$,解码速度提升$4.8\times$;相较于CPU分别提升$33.5\times$和$2.2\times$。能效比较iGPU和CPU最高提升$67.2\times$和$222.9\times$。该方案证明现代NPU能够在边缘端实现实用化、低功耗的LLM与VLM推理,并为基于Transformer的模型映射至分片数据流加速器提供了可推广的蓝图。

0
下载
关闭预览

相关内容

基于脉冲神经网络的边缘智能
专知会员服务
20+阅读 · 2025年7月23日
《边缘智能体AI在军事通信网络中的创新框架》
专知会员服务
41+阅读 · 2025年6月9日
《面向边缘AI应用的高性能高能效架构探索》156页
专知会员服务
35+阅读 · 2025年4月12日
面向实时视频流分析的边缘计算技术
专知会员服务
79+阅读 · 2022年6月5日
谷歌EfficientNet缩放模型,PyTorch实现登热榜
机器学习算法与Python学习
11+阅读 · 2019年6月4日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
最新内容
美国当前高超音速导弹发展概述
专知会员服务
4+阅读 · 4月19日
无人机蜂群建模与仿真方法
专知会员服务
7+阅读 · 4月19日
澳大利亚发布《国防战略(2026年)》
专知会员服务
2+阅读 · 4月19日
全球高超音速武器最新发展趋势
专知会员服务
2+阅读 · 4月19日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员