The success of deep ensembles on improving predictive performance, uncertainty estimation, and out-of-distribution robustness has been extensively studied in the machine learning literature. Albeit the promising results, naively training multiple deep neural networks and combining their predictions at inference leads to prohibitive computational costs and memory requirements. Recently proposed efficient ensemble approaches reach the performance of the traditional deep ensembles with significantly lower costs. However, the training resources required by these approaches are still at least the same as training a single dense model. In this work, we draw a unique connection between sparse neural network training and deep ensembles, yielding a novel efficient ensemble learning framework called FreeTickets. Instead of training multiple dense networks and averaging them, we directly train sparse subnetworks from scratch and extract diverse yet accurate subnetworks during this efficient, sparse-to-sparse training. Our framework, FreeTickets, is defined as the ensemble of these relatively cheap sparse subnetworks. Despite being an ensemble method, FreeTickets has even fewer parameters and training FLOPs than a single dense model. This seemingly counter-intuitive outcome is due to the ultra training/inference efficiency of dynamic sparse training. FreeTickets surpasses the dense baseline in all the following criteria: prediction accuracy, uncertainty estimation, out-of-distribution (OoD) robustness, as well as efficiency for both training and inference. Impressively, FreeTickets outperforms the naive deep ensemble with ResNet50 on ImageNet using around only 1/5 of the training FLOPs required by the latter. We have released our source code at https://github.com/VITA-Group/FreeTickets.


翻译:深度集成在提升预测性能、不确定性估计以及分布外鲁棒性方面的成功已在机器学习文献中得到广泛研究。尽管结果令人鼓舞,但朴素地训练多个深度神经网络并在推理时组合其预测会导致极高的计算成本和内存需求。近期提出的高效集成方法以显著更低的成本达到了传统深度集成的性能。然而,这些方法所需的训练资源仍至少等同于训练单个稠密模型。在本工作中,我们揭示了稀疏神经网络训练与深度集成之间的独特关联,提出了一种名为FreeTickets的新型高效集成学习框架。该框架不训练多个稠密网络并对其取平均,而是直接从头训练稀疏子网络,并在此高效的稀疏到稀疏训练过程中提取多样化且精确的子网络。我们的FreeTickets框架即定义为这些相对廉价的稀疏子网络的集成。尽管是一种集成方法,FreeTickets的参数数量和训练浮点运算次数甚至少于单个稠密模型。这一看似反直觉的结果源于动态稀疏训练的超高训练/推理效率。FreeTickets在以下所有标准上均超越了稠密基线:预测精度、不确定性估计、分布外(OoD)鲁棒性,以及训练和推理效率。令人印象深刻的是,FreeTickets在ImageNet上使用ResNet50时,仅需后者约1/5的训练浮点运算量,即超越了朴素深度集成。我们已在https://github.com/VITA-Group/FreeTickets 发布源代码。

0
下载
关闭预览

相关内容

深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
7个实用的深度学习技巧
机器学习算法与Python学习
16+阅读 · 2019年3月6日
深度强化学习简介
专知
30+阅读 · 2018年12月3日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Arxiv
0+阅读 · 1月14日
VIP会员
最新内容
非对称优势:美海军开发低成本反无人机技术
专知会员服务
4+阅读 · 今天4:39
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
5+阅读 · 今天2:48
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
8+阅读 · 今天2:43
【NTU博士论文】3D人体动作生成
专知会员服务
6+阅读 · 4月24日
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
8+阅读 · 4月24日
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
13+阅读 · 4月24日
《多域作战面临复杂现实》
专知会员服务
9+阅读 · 4月24日
《印度的多域作战:条令与能力发展》报告
专知会员服务
4+阅读 · 4月24日
相关VIP内容
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员