The training of deep neural networks predominantly relies on a combination of gradient-based optimisation and back-propagation for the computation of the gradient. While incredibly successful, this approach faces challenges such as vanishing or exploding gradients, difficulties with non-smooth activations, and an inherently sequential structure that limits parallelisation. Lifted training methods offer an alternative by reformulating the nested optimisation problem into a higher-dimensional, constrained optimisation problem where the constraints are no longer enforced directly but penalised with penalty terms. This chapter introduces a unified framework that encapsulates various lifted training strategies, including the Method of Auxiliary Coordinates, Fenchel Lifted Networks, and Lifted Bregman Training, and demonstrates how diverse architectures, such as Multi-Layer Perceptrons, Residual Neural Networks, and Proximal Neural Networks fit within this structure. By leveraging tools from convex optimisation, particularly Bregman distances, the framework facilitates distributed optimisation, accommodates non-differentiable proximal activations, and can improve the conditioning of the training landscape. We discuss the implementation of these methods using block-coordinate descent strategies, including deterministic implementations enhanced by accelerated and adaptive optimisation techniques, as well as implicit stochastic gradient methods. Furthermore, we explore the application of this framework to inverse problems, detailing methodologies for both the training of specialised networks (e.g., unrolled architectures) and the stable inversion of pre-trained networks. Numerical results on standard imaging tasks validate the effectiveness and stability of the lifted Bregman approach compared to conventional training, particularly for architectures employing proximal activations.


翻译:深度神经网络的训练主要依赖于梯度优化与反向传播相结合的方法来计算梯度。尽管这种方法取得了巨大成功,但其仍面临梯度消失或爆炸、非光滑激活函数处理困难以及固有的顺序结构限制并行化等挑战。提升式训练方法通过将嵌套优化问题重新表述为一个更高维度的约束优化问题,提供了一种替代方案,其中约束不再直接强制执行,而是通过惩罚项进行惩罚。本章介绍了一个统一框架,该框架囊括了多种提升式训练策略,包括辅助坐标法、Fenchel提升网络和提升Bregman训练,并展示了多层感知机、残差神经网络和近端神经网络等多种架构如何融入这一结构。通过利用凸优化工具,特别是Bregman距离,该框架促进了分布式优化,适应了不可微的近端激活函数,并能改善训练景观的条件数。我们讨论了使用块坐标下降策略实现这些方法,包括通过加速和自适应优化技术增强的确定性实现,以及隐式随机梯度方法。此外,我们探讨了该框架在反问题中的应用,详细介绍了专用网络(如展开架构)的训练方法以及预训练网络的稳定反演技术。在标准成像任务上的数值结果验证了提升Bregman方法相较于传统训练的有效性和稳定性,特别是在采用近端激活函数的架构中。

0
下载
关闭预览

相关内容

梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。
《运用深度学习增强军事仿真:一种综合性方法》
专知会员服务
26+阅读 · 2025年10月2日
《元学习与持续学习》最新综述
专知会员服务
72+阅读 · 2023年11月19日
深度学习算法发展简述,从DNN到Transformer再到ChatGPT
专知会员服务
153+阅读 · 2022年12月22日
通过条件梯度进行结构化机器学习训练,50页ppt与视频
专知会员服务
13+阅读 · 2021年2月25日
<好书推荐> -《Pro Deep Learning with TensorFlow》分享
深度学习与NLP
12+阅读 · 2018年9月13日
深度学习开发必备开源框架
九章算法
12+阅读 · 2018年5月30日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
【深度学习】深度学习的核心:掌握训练数据的方法
产业智能官
12+阅读 · 2018年1月14日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Arxiv
0+阅读 · 1月14日
VIP会员
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员