The ever-growing computational demands of increasingly complex machine learning models frequently necessitate the use of powerful cloud-based infrastructure for their training. Binary neural networks are known to be promising candidates for on-device inference due to their extreme compute and memory savings over higher-precision alternatives. However, their existing training methods require the concurrent storage of high-precision activations for all layers, generally making learning on memory-constrained devices infeasible. In this paper, we demonstrate that the backward propagation operations needed for binary neural network training are strongly robust to quantization, thereby making on-the-edge learning with modern models a practical proposition. We introduce a low-cost binary neural network training strategy exhibiting sizable memory footprint and energy reductions while inducing little to no accuracy loss vs Courbariaux & Bengio's standard approach. These resource decreases are primarily enabled through the retention of activations exclusively in binary format. Against the latter algorithm, our drop-in replacement sees coincident memory requirement and energy consumption drops of 2--6$\times$, while reaching similar test accuracy in comparable time, across a range of small-scale models trained to classify popular datasets. We also demonstrate from-scratch ImageNet training of binarized ResNet-18, achieving a 3.12$\times$ memory reduction. Such savings will allow for unnecessary cloud offloading to be avoided, reducing latency, increasing energy efficiency and safeguarding privacy.


翻译:日益复杂的机器学习模式的日益增长的计算需求往往要求使用强大的云基基础设施进行培训。 众所周知,二进制神经网络由于在高精度替代品方面极端的计算和记忆节约,因此是极高精度替代品的极端计算和内存节约,因此有希望的在线电线网络是进行在线推导的可行人选。然而,它们现有的培训方法要求同时储存所有层面的高精度启动功能,通常使对记忆限制装置的学习变得不可行。在本文中,我们表明,二进制神经网络培训所需的后退传播操作非常强大,足以量化,从而使得与现代模型的前沿学习成为实用的实用建议。我们引入了低成本的双进制神经网络培训战略,展示了规模可观的记忆足和节能率,同时提高了可比时间的测试精度和能量的精度,同时使Courbario和Bengio的标准方法几乎没有导致准确性损失。这些资源的减少主要通过完全以二进制格式保留激活装置来实现。在后一种算法下,我们的递增量值中,我们的递增量值的存储要求和耗能下降2-6的耗时值2-6美元,同时在可比时间上达到类似的测试精度,同时提高的精度,同时将达到相当的精度,同时进行我们的节度,同时将使我们从一个小的图像的精度,并进式的模型将使得我们所训练到可以进行这样的图像的精度。

0
下载
关闭预览

相关内容

神经网络的拓扑结构,TOPOLOGY OF DEEP NEURAL NETWORKS
专知会员服务
35+阅读 · 2020年4月15日
【ICLR-2020】网络反卷积,NETWORK DECONVOLUTION
专知会员服务
39+阅读 · 2020年2月21日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
32+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
已删除
将门创投
5+阅读 · 2017年11月22日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
0+阅读 · 2021年7月29日
Arxiv
3+阅读 · 2020年4月29日
Kernel Graph Attention Network for Fact Verification
Arxiv
3+阅读 · 2019年10月23日
Arxiv
7+阅读 · 2018年8月21日
Arxiv
3+阅读 · 2018年2月11日
VIP会员
最新内容
《无人机革命:来自俄乌战场的启示》(报告)
专知会员服务
3+阅读 · 今天6:48
《实现联合作战能力所需的技术》58页报告
专知会员服务
1+阅读 · 今天6:30
以色列运用人工智能优化空袭警报系统
专知会员服务
0+阅读 · 今天6:20
以色列在多条战线部署AI智能体
专知会员服务
1+阅读 · 今天6:12
2025年大语言模型进展报告
专知会员服务
14+阅读 · 4月25日
多智能体协作机制
专知会员服务
13+阅读 · 4月25日
非对称优势:美海军开发低成本反无人机技术
专知会员服务
9+阅读 · 4月25日
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
8+阅读 · 4月25日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
已删除
将门创投
5+阅读 · 2017年11月22日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员