Vision backbone networks play a central role in modern computer vision. Enhancing their efficiency directly benefits a wide range of downstream applications. To measure efficiency, many publications rely on MACs (Multiply Accumulate operations) as a predictor of execution time. In this paper, we experimentally demonstrate the shortcomings of such a metric, especially in the context of edge devices. By contrasting the MAC count and execution time of common architectural design elements, we identify key factors for efficient execution and provide insights to optimize backbone design. Based on these insights, we present LowFormer, a novel vision backbone family. LowFormer features a streamlined macro and micro design that includes Lowtention, a lightweight alternative to Multi-Head Self-Attention. Lowtention not only proves more efficient, but also enables superior results on ImageNet. Additionally, we present an edge GPU version of LowFormer, that can further improve upon its baseline's speed on edge GPU and desktop GPU. We demonstrate LowFormer's wide applicability by evaluating it on smaller image classification datasets, as well as adapting it to several downstream tasks, such as object detection, semantic segmentation, image retrieval, and visual object tracking. LowFormer models consistently achieve remarkable speed-ups across various hardware platforms compared to recent state-of-the-art backbones. Code and models are available at https://github.com/altair199797/LowFormer/blob/main/Beyond_MACs.md.


翻译:视觉骨干网络在现代计算机视觉中扮演核心角色。提升其效率可直接惠及广泛下游应用。为衡量效率,许多研究依赖MACs(乘累加操作数)作为执行时间的预测指标。本文通过实验证明了该指标在边缘设备场景下的局限性。通过对比常见架构设计元素的MAC计数与实际执行时间,我们识别了高效执行的关键因素,并提出了优化骨干网络设计的洞见。基于这些发现,我们提出新型视觉骨干家族LowFormer。LowFormer采用精简的宏观与微观设计,包含轻量级多头自注意力替代方案Lowtention。Lowtention不仅更高效,还能在ImageNet上实现更优结果。此外,我们提出边缘GPU版本LowFormer,可进一步在边缘GPU和桌面GPU上提升基线模型速度。通过在小规模图像分类数据集上的评估及对目标检测、语义分割、图像检索和视觉目标跟踪等下游任务的适配,我们证明了LowFormer的广泛适用性。相较于近期最先进骨干网络,LowFormer模型在多种硬件平台上均实现显著加速。代码与模型已开源至https://github.com/altair199797/LowFormer/blob/main/Beyond_MACs.md。

0
下载
关闭预览

相关内容

设计是对现有状的一种重新认识和打破重组的过程,设计让一切变得更美。
计算机视觉方向简介 | 多视角立体视觉MVS
计算机视觉life
15+阅读 · 2019年10月10日
深度学习与计算机视觉任务应用综述
深度学习与NLP
51+阅读 · 2018年12月18日
【综述】计算机视觉简介:历史、现状和发展趋势【可下载】
机器学习算法与Python学习
15+阅读 · 2018年9月21日
一文概览基于深度学习的超分辨率重建架构
视觉里程计:起源、优势、对比、应用
计算机视觉life
18+阅读 · 2017年7月17日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员