人工智能在语言建模、视觉及自主系统等领域取得了卓越成就。这些突破主要源于使用数千个 GPU 或 TPU 在海量数据集上训练规模日益扩大的神经网络。此类训练任务往往占用整个数据中心长达数周甚至数月,消耗巨大的计算与能源资源。尽管硬件进步和数据可用性使这种规模化扩展(Scaling)成为可能,但用于训练的优化算法演进速度却相对滞后。大多数大规模训练仍依赖于同步方法,即所有工作节点(Workers)必须在下一轮迭代开始前完成各自任务。随着设备数量的增加,由同步引起的低效问题也随之加剧:较快的节点在等待较慢节点时处于闲置状态,造成了计算资源和能源的浪费。在实践中,所有节点几乎不可能以完全相同的速度运行——硬件故障和网络延迟不可避免地导致了计算异构性。

直观来看,移除同步似乎是一个简单的解决方案,它允许所有节点持续运行。然而,异步性会引入迟滞性(Staleness)——即部分计算结果是基于过时的模型版本生成的——这使得算法分析变得异常困难,尤其是当延迟源于系统级波动而非算法本身时。尽管已有大量研究,但异步方法的时间复杂度仍未得到充分理解。 本论文旨在填补这一空白。我们为异步一阶随机优化开发了一个严谨的框架,孤立并处理了这些方法所针对的核心挑战:异构的节点速度。在此框架下,我们研究了随机梯度下降(SGD),并证明通过合理设计,异步 SGD 在时间复杂度上可以达到理论最优,匹配了近期同步 SGD 变体才实现的最优性结果。 本文的第一项贡献是 Ringmaster ASGD,它通过选择性地丢弃过时更新,在同构数据设定下实现了最优时间复杂度。第二项贡献 Ringleader ASGD,利用协调模型更新的结构化梯度表机制,将上述结果扩展到了异构数据体制(联邦学习中的典型场景)。最后,ATA 通过学习节点的计算时间分布并自适应地分配任务,显著提升了资源效率,以远少的计算量实现了近乎最优的实际运行时间。 综上所述,这些研究结果确立了异步优化在并行与分布式学习中作为理论完备且实际高效的基础地位——证明了“无须同步的协调”不仅可行,而且此类策略在理论上享有最优时间复杂度,同时在实践中优于竞争性的同步方法。

成为VIP会员查看完整内容
10

相关内容

随机梯度下降,按照数据生成分布抽取m个样本,通过计算他们梯度的平均值来更新梯度。
深度学习批归一化及其相关算法研究进展
专知会员服务
52+阅读 · 2020年7月17日
深度学习中的五大正则化方法和七大优化策略
全球人工智能
11+阅读 · 2017年12月25日
尽早跑通深度学习的实践代码,是入门深度学习的最快途径
算法与数据结构
22+阅读 · 2017年12月13日
绝对干货 | 随机梯度下降算法综述
菜鸟的机器学习
15+阅读 · 2017年10月30日
干货|基于图卷积网络的图深度学习
DataCanvas大数据云平台
10+阅读 · 2017年6月8日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员