State-of-art NPUs are typically architected as a self-contained sub-system with multiple heterogeneous hardware computing modules, and a dataflow-driven programming model. There lacks well-established methodology and tools in the industry to evaluate and compare the performance of NPUs from different architectures. We present an event-based performance modeling framework, VPU-EM, targeting scalable performance evaluation of modern NPUs across diversified AI workloads. The framework adopts high-level event-based system-simulation methodology to abstract away design details for speed, while maintaining hardware pipelining, concurrency and interaction with software task scheduling. It is natively developed in Python and built to interface directly with AI frameworks such as Tensorflow, PyTorch, ONNX and OpenVINO, linking various in-house NPU graph compilers to achieve optimized full model performance. Furthermore, VPU-EM also provides the capability to model power characteristics of NPU in Power-EM mode to enable joint performance/power analysis. Using VPU-EM, we conduct performance/power analysis of models from representative neural network architecture. We demonstrate that even though this framework is developed for Intel VPU, an Intel in-house NPU IP technology, the methodology can be generalized for analysis of modern NPUs.


翻译:当前最先进的NPU通常被设计为包含多个异构硬件计算模块的自包含子系统,并采用数据流驱动的编程模型。业界缺乏成熟的方法与工具来评估和比较不同架构NPU的性能。本文提出事件驱动的性能建模框架VPU-EM,旨在实现现代NPU在多样化AI工作负载下的可扩展性能评估。该框架采用高层级事件驱动系统仿真方法学,在保持硬件流水线、并发性及与软件任务调度交互能力的同时,通过抽象设计细节提升仿真速度。框架原生基于Python开发,可直接对接Tensorflow、PyTorch、ONNX和OpenVINO等AI框架,通过集成多种自研NPU图编译器实现优化的全模型性能评估。此外,VPU-EM还提供Power-EM模式以建模NPU功耗特性,支持性能/功耗联合分析。我们利用VPU-EM对代表性神经网络架构模型进行性能/功耗分析,结果表明,尽管该框架专为Intel VPU(Intel自研NPU IP技术)开发,但其方法学可推广至现代NPU的通用分析场景。

0
下载
关闭预览

相关内容

基于图神经网络的空间加速器可移植映射
专知会员服务
6+阅读 · 2022年7月2日
【Manning新书】MLOps工程规模化,344页pdf
专知
24+阅读 · 2022年5月4日
17篇必看[知识图谱Knowledge Graphs] 论文@AAAI2020
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
AI/ML/DNN硬件加速设计怎么入门?
StarryHeavensAbove
11+阅读 · 2018年12月4日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
10+阅读 · 6月15日
相关VIP内容
基于图神经网络的空间加速器可移植映射
专知会员服务
6+阅读 · 2022年7月2日
相关资讯
【Manning新书】MLOps工程规模化,344页pdf
专知
24+阅读 · 2022年5月4日
17篇必看[知识图谱Knowledge Graphs] 论文@AAAI2020
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
AI/ML/DNN硬件加速设计怎么入门?
StarryHeavensAbove
11+阅读 · 2018年12月4日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员