High-resolution images enable neural networks to learn richer visual representations. However, this improved performance comes at the cost of growing computational complexity, hindering their usage in latency-sensitive applications. As not all pixels are equal, skipping computations for less-important regions offers a simple and effective measure to reduce the computation. This, however, is hard to be translated into actual speedup for CNNs since it breaks the regularity of the dense convolution workload. In this paper, we introduce SparseViT that revisits activation sparsity for recent window-based vision transformers (ViTs). As window attentions are naturally batched over blocks, actual speedup with window activation pruning becomes possible: i.e., ~50% latency reduction with 60% sparsity. Different layers should be assigned with different pruning ratios due to their diverse sensitivities and computational costs. We introduce sparsity-aware adaptation and apply the evolutionary search to efficiently find the optimal layerwise sparsity configuration within the vast search space. SparseViT achieves speedups of 1.5x, 1.4x, and 1.3x compared to its dense counterpart in monocular 3D object detection, 2D instance segmentation, and 2D semantic segmentation, respectively, with negligible to no loss of accuracy.


翻译:高分辨率图像可以使神经网络学习到更丰富的视觉表示。然而,这种改进的性能是以不断增长的计算复杂度为代价的,限制了它们在延迟敏感型应用中的使用。由于并非所有像素都是相等的,因此跳过对不重要区域的计算可以提供一种简单有效的措施来减少计算。然而,由于这破坏了密集卷积负载的规律性,因此很难将其转化为CNN的实际加速。在本文中,我们引入了SparseViT,该算法重访了最近的基于窗口的Vision Transformer(ViTs)中的激活稀疏性。由于窗口注意力自然地被批处理为块,因此使用窗口激活剪枝可以实现实际的加速:即通过不到60%的稀疏性实现约50%的延迟降低。由于各层的敏感度和计算成本不同,因此应为不同的层分配不同的修剪比例。我们引入了稀疏感知适应和应用进化搜索,在广阔的搜索空间中有效地找到了最佳的层稀疏配置。SparseViT在单目三维物体检测,二维实例分割和二维语义分割中与其密集对应方法相比实现了1.5x,1.4x和1.3x的加速,几乎没有损失精度。

2
下载
关闭预览

相关内容

【CVPR2022】基于知识蒸馏的高效预训练
专知会员服务
32+阅读 · 2022年4月23日
【2022新书】高效深度学习,Efficient Deep Learning Book
专知会员服务
128+阅读 · 2022年4月21日
【Google】高效Transformer综述,Efficient Transformers: A Survey
专知会员服务
66+阅读 · 2022年3月17日
专知会员服务
26+阅读 · 2021年4月2日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Deep Compression/Acceleration:模型压缩加速论文汇总
极市平台
14+阅读 · 2019年5月15日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
可解释的CNN
CreateAMind
18+阅读 · 2017年10月5日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2023年5月18日
Arxiv
23+阅读 · 2020年9月16日
VIP会员
最新内容
2025年大语言模型进展报告
专知会员服务
3+阅读 · 4月25日
多智能体协作机制
专知会员服务
3+阅读 · 4月25日
非对称优势:美海军开发低成本反无人机技术
专知会员服务
6+阅读 · 4月25日
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
7+阅读 · 4月25日
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
10+阅读 · 4月25日
【NTU博士论文】3D人体动作生成
专知会员服务
7+阅读 · 4月24日
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
8+阅读 · 4月24日
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
14+阅读 · 4月24日
《多域作战面临复杂现实》
专知会员服务
10+阅读 · 4月24日
《印度的多域作战:条令与能力发展》报告
专知会员服务
5+阅读 · 4月24日
相关基金
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员