The superior performance of modern deep networks usually comes with a costly training procedure. This paper presents a new curriculum learning approach for the efficient training of visual backbones (e.g., vision Transformers). Our work is inspired by the inherent learning dynamics of deep networks: we experimentally show that at an earlier training stage, the model mainly learns to recognize some 'easier-to-learn' discriminative patterns within each example, e.g., the lower-frequency components of images and the original information before data augmentation. Driven by this phenomenon, we propose a curriculum where the model always leverages all the training data at each epoch, while the curriculum starts with only exposing the 'easier-to-learn' patterns of each example, and introduces gradually more difficult patterns. To implement this idea, we 1) introduce a cropping operation in the Fourier spectrum of the inputs, which enables the model to learn from only the lower-frequency components efficiently, 2) demonstrate that exposing the features of original images amounts to adopting weaker data augmentation, and 3) integrate 1) and 2) and design a curriculum learning schedule with a greedy-search algorithm. The resulting approach, EfficientTrain, is simple, general, yet surprisingly effective. In the absence of hyper-parameter tuning, it reduces the training wall-time of a wide variety of popular models (e.g., ResNet, ConvNeXt, DeiT, PVT, Swin, and CSWin) by >1.5x on ImageNet-1K/22K without sacrificing the accuracy. It is also effective for self-supervised learning (e.g., MAE). Code is available at https://github.com/LeapLabTHU/EfficientTrain.


翻译:现代深度网络的卓越性能通常伴随着高昂的训练成本。本文提出了一种新的课程学习方法,用于高效训练视觉骨干网络(如视觉Transformer)。我们的工作受深度网络内在学习动态的启发:通过实验发现,在训练早期阶段,模型主要学习识别每个样本中"更易学习"的判别性模式,例如图像的低频分量以及数据增强前的原始信息。基于此现象,我们设计了一种课程方案:模型在每个训练周期中始终使用全部训练数据,但课程开始时仅暴露每个样本中"更易学习"的模式,并逐步引入更困难的模式。为实现这一想法,我们(1)在输入的傅里叶频谱中引入裁剪操作,使模型能够高效地从低频分量中学习;(2)证明暴露原始图像特征等同于采用较弱的数据增强;(3)整合(1)和(2),并通过贪心搜索算法设计课程学习计划。所提出的方法EfficientTrain简单、通用且效果显著。在无需超参数调优的情况下,它将ImageNet-1K/22K上多种主流模型(如ResNet、ConvNeXt、DeiT、PVT、Swin和CSWin)的训练耗时减少>1.5倍,同时保持精度不损失。该方法同样适用于自监督学习(如MAE)。代码已开源:https://github.com/LeapLabTHU/EfficientTrain。

0
下载
关闭预览

相关内容

【CMU博士论文】课程学习,Curriculum Learning,193页pdf
专知会员服务
54+阅读 · 2022年8月13日
【2022新书】高效深度学习,Efficient Deep Learning Book
专知会员服务
128+阅读 · 2022年4月21日
NeurIPS 2021 | 寻MixTraining: 一种全新的物体检测训练范式
专知会员服务
12+阅读 · 2021年12月9日
专知会员服务
36+阅读 · 2021年7月7日
专知会员服务
26+阅读 · 2021年5月23日
首篇「课程学习(Curriculum Learning)」2021综述论文
专知会员服务
50+阅读 · 2021年1月31日
专知会员服务
45+阅读 · 2020年12月18日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
167+阅读 · 2020年3月18日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
可解释的CNN
CreateAMind
18+阅读 · 2017年10月5日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
35+阅读 · 2022年3月14日
Arxiv
37+阅读 · 2021年8月2日
Neural Architecture Search without Training
Arxiv
10+阅读 · 2021年6月11日
Arxiv
24+阅读 · 2021年1月25日
VIP会员
最新内容
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
6+阅读 · 6月25日
网状网络及其在军事领域的运用
专知会员服务
7+阅读 · 6月25日
无美国参与的欧洲战争方式(万字长文)
专知会员服务
8+阅读 · 6月25日
《国防领域敏感性分析白皮书》
专知会员服务
8+阅读 · 6月25日
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
10+阅读 · 6月24日
重新思考无人机时代的生存能力
专知会员服务
10+阅读 · 6月24日
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
7+阅读 · 6月24日
在人工智能加速决策环境中拓展OODA循环
专知会员服务
10+阅读 · 6月24日
相关VIP内容
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员