In natural images, information is conveyed at different frequencies where higher frequencies are usually encoded with fine details and lower frequencies are usually encoded with global structures. Similarly, the output feature maps of a convolution layer can also be seen as a mixture of information at different frequencies. In this work, we propose to factorize the mixed feature maps by their frequencies, and design a novel Octave Convolution (OctConv) operation to store and process feature maps that vary spatially "slower" at a lower spatial resolution reducing both memory and computation cost. Unlike existing multi-scale methods, OctConv is formulated as a single, generic, plug-and-play convolutional unit that can be used as a direct replacement of (vanilla) convolutions without any adjustments in the network architecture. It is also orthogonal and complementary to methods that suggest better topologies or reduce channel-wise redundancy like group or depth-wise convolutions. We experimentally show that by simply replacing convolutions with OctConv, we can consistently boost accuracy for both image and video recognition tasks, while reducing memory and computational cost. An OctConv-equipped ResNet-152 can achieve 82.9% top-1 classification accuracy on ImageNet with merely 22.2 GFLOPs.


翻译:在自然图像中,在不同的频率上传递信息,在不同的频率上,高频率通常以精细细节编码,低频率通常以全球结构编码;同样,卷变层的输出特征图也可以视为不同频率信息的一种混合。在这项工作中,我们提议将混合特征图按其频率进行分解,并设计新的“OctConv”(OctConv)操作,储存和处理空间“较低”的特征图,在降低记忆和计算成本的较低空间分辨率下,存储和处理这些“较低”的空间“较低”的特征图。与现有的多尺度方法不同,CentConv是作为一个单一的、通用的、插件和播放的共变单元编制的,可以用来直接取代(vanilla)相变(Vanilla)的相变图,而无需对网络结构作任何调整。我们实验性地表明,只要用CnconvCurv取代电流,我们就可以不断提高图像和视频识别任务的精确度,同时减少记忆和计算成本。Cncental-Con-Con-Confrimealment 22-Metal-Ils-ILFLFLM.I.I.I.I.I.I.Cond-222-I.I.M.I.I.I.I.I.I.M.I.I.I.I.I.Conv.I.Conv.I.I.I.I.I.I.I.I.I.I.M.I.I.I.I.I.I.I.I.I.I.M.M.I.I.I.I.M.I.I.M.M.I.I./I.I.I.M.M.M.3.M.M.M.I.3.M.I.I.I.M.I.I.I.I.I.3.。

0
下载
关闭预览

相关内容

【清华大学】图随机神经网络,Graph Random Neural Networks
专知会员服务
156+阅读 · 2020年5月26日
神经网络的拓扑结构,TOPOLOGY OF DEEP NEURAL NETWORKS
专知会员服务
35+阅读 · 2020年4月15日
【经典书】Python计算机视觉编程,中文版,363页pdf
专知会员服务
145+阅读 · 2020年2月16日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
Graph Neural Network(GNN)最全资源整理分享
深度学习与NLP
339+阅读 · 2019年7月9日
模块设计之 SKNet, GCNet, GloRe, Octave
极市平台
16+阅读 · 2019年5月20日
图卷积神经网络(GCN)文本分类详述
专知
280+阅读 · 2019年4月5日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
20+阅读 · 2017年12月17日
【推荐】ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
机器学习研究会
20+阅读 · 2017年12月17日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
5+阅读 · 2020年3月16日
Arxiv
19+阅读 · 2018年6月27日
VIP会员
最新内容
人工智能赋能无人机:俄乌战争(万字长文)
专知会员服务
4+阅读 · 今天6:56
国外海军作战管理系统与作战训练系统
专知会员服务
2+阅读 · 今天4:16
美军条令《海军陆战队规划流程(2026版)》
专知会员服务
9+阅读 · 今天3:36
《压缩式分布式交互仿真标准》120页
专知会员服务
4+阅读 · 今天3:21
《电子战数据交换模型研究报告》
专知会员服务
6+阅读 · 今天3:13
《基于Transformer的异常舰船导航识别与跟踪》80页
《低数据领域军事目标检测模型研究》
专知会员服务
6+阅读 · 今天2:37
【CMU博士论文】物理世界的视觉感知与深度理解
专知会员服务
10+阅读 · 4月22日
伊朗战争停火期间美军关键弹药状况分析
专知会员服务
8+阅读 · 4月22日
电子战革命:塑造战场的十年突破(2015–2025)
相关资讯
Graph Neural Network(GNN)最全资源整理分享
深度学习与NLP
339+阅读 · 2019年7月9日
模块设计之 SKNet, GCNet, GloRe, Octave
极市平台
16+阅读 · 2019年5月20日
图卷积神经网络(GCN)文本分类详述
专知
280+阅读 · 2019年4月5日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
20+阅读 · 2017年12月17日
【推荐】ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
机器学习研究会
20+阅读 · 2017年12月17日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员