We introduce a dynamic sparse training algorithm based on linearized Bregman iterations / mirror descent that exploits the naturally incurred sparsity by alternating between periods of static and dynamic sparsity pattern updates. The key idea is to combine sparsity-inducing Bregman iterations with adaptive freezing of the network structure to enable efficient exploration of the sparse parameter space while maintaining sparsity. We provide convergence guaranties by embedding our method in a multilevel optimization framework. Furthermore, we empirically show that our algorithm can produce highly sparse and accurate models on standard benchmarks. We also show that the theoretical number of FLOPs compared to SGD training can be reduced from 38% for standard Bregman iterations to 6% for our method while maintaining test accuracy.


翻译:本文提出一种基于线性化Bregman迭代/镜像下降的动态稀疏训练算法,该算法通过交替执行静态与动态稀疏模式更新阶段,有效利用自然产生的稀疏性。核心思想是将稀疏诱导的Bregman迭代与网络结构自适应冻结机制相结合,在保持稀疏性的同时实现对稀疏参数空间的高效探索。通过将本方法嵌入多级优化框架,我们提供了收敛性保证。实验结果表明,本算法在标准基准测试中能生成高稀疏度且高精度的模型。理论分析表明,相较于标准Bregman迭代将SGD训练的理论FLOPs降低38%,本方法可进一步将FLOPs降低至6%且保持测试精度。

0
下载
关闭预览

相关内容

【MIT博士论文】稀疏可训练神经网络
专知会员服务
39+阅读 · 2023年11月28日
专知会员服务
48+阅读 · 2021年2月2日
专知会员服务
20+阅读 · 2020年12月9日
稀疏性的3个优势 -《稀疏统计学习及其应用》
遇见数学
15+阅读 · 2018年10月24日
基于注意力机制的图卷积网络
科技创新与创业
74+阅读 · 2017年11月8日
【深度学习基础】4. Recurrent Neural Networks
微信AI
16+阅读 · 2017年7月19日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月26日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员