This work evaluates State-of-the-Art convolution algorithms for CPU-based CNN inference. Although most prior studies focus on GPUs or NPUs, CPU implementations remain comparatively under-optimized. Our first contribution is to provide fair benchmarking for embedded CPU inference. We evaluate direct, GEMM-based, and Winograd convolutions across modern CPUs from ARM, Intel, AMD, and NVIDIA vendors, considering both latency and energy efficiency. To the best of our knowledge, this is the first study to present a fair, cross-vendor comparison of CPU energy consumption using a high-resolution socket-level measurement platform. To validate our methodology, we further compare socket-level power measurements with estimates derived from model-specific registers (MSRs), finding that MSRs underestimate the power consumption of convolution inference by 10--30%. Our results show that the ARM\R Cortex-A78AE CPU combined with an implicit GEMM convolution implementation offers the best trade-off between latency and power consumption, achieving ResNet50v1.5 inference in 102 ms with an average power of 25.3 W, corresponding to 2.58 J.


翻译:本研究评估了基于CPU的CNN推理中先进的卷积算法。尽管先前多数研究聚焦于GPU或NPU,但CPU实现方案仍相对缺乏优化。我们的首要贡献是为嵌入式CPU推理提供公平的基准测试框架。我们在ARM、英特尔、AMD和英伟达等厂商的现代CPU平台上,系统评估了直接卷积、基于GEMM的卷积及Winograd卷积算法,同时考量延迟与能效指标。据我们所知,这是首个采用高精度插槽级测量平台实现跨厂商CPU能耗公平对比的研究。为验证方法论可靠性,我们进一步对比了插槽级功率测量值与模型特定寄存器(MSR)推算的估计值,发现MSR会低估卷积推理功耗10-30%。实验结果表明:ARM® Cortex-A78AE CPU结合隐式GEMM卷积实现方案在延迟与功耗间达到最佳平衡,可在102毫秒内完成ResNet50v1.5推理任务,平均功耗25.3瓦,对应能耗为2.58焦耳。

0
下载
关闭预览

相关内容

中央处理器(CPU,Central Processing Unit),电子计算机的主要设备之一。其功能主要是解释计算机指令以及处理计算机软件中的数据。
《人工智能芯片基准测试评估方法》行业标准
专知会员服务
87+阅读 · 2022年2月20日
最新《深度卷积神经网络理论》报告,35页ppt
专知会员服务
47+阅读 · 2020年11月30日
【ICLR-2020】网络反卷积,NETWORK DECONVOLUTION
专知会员服务
39+阅读 · 2020年2月21日
牛逼哄哄的图卷积神经网络将带来哪些机遇?
计算机视觉life
49+阅读 · 2019年3月25日
AAAI 2019 论文解读:卷积神经网络继续进步
机器之心
35+阅读 · 2019年2月2日
什么是深度学习的卷积?
论智
18+阅读 · 2018年8月14日
深度学习中的五大正则化方法和七大优化策略
全球人工智能
11+阅读 · 2017年12月25日
【回顾】深度学习系列之二:卷积神经网络
AI研习社
20+阅读 · 2017年12月1日
深度学习目标检测模型全面综述:Faster R-CNN、R-FCN和SSD
深度学习世界
10+阅读 · 2017年9月18日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月26日
VIP会员
相关VIP内容
《人工智能芯片基准测试评估方法》行业标准
专知会员服务
87+阅读 · 2022年2月20日
最新《深度卷积神经网络理论》报告,35页ppt
专知会员服务
47+阅读 · 2020年11月30日
【ICLR-2020】网络反卷积,NETWORK DECONVOLUTION
专知会员服务
39+阅读 · 2020年2月21日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员