Training neural networks via backpropagation is often hindered by vanishing or exploding gradients. In this work, we design architectures that mitigate these issues by analyzing and controlling the network Jacobian. We first provide a unified characterization for a class of networks with orthogonal Jacobian including known architectures and yielding new trainable designs. We then introduce the relaxed notion of persistent subspace orthogonality. This applies to a broader class of networks whose Jacobians are isometries only on a non-trivial subspace. We propose practical mechanisms to enforce this condition and empirically show that it is necessary to sufficiently preserve the gradient norms during backpropagation, enabling the training of very deep networks. We support our theory with extensive experiments.


翻译:通过反向传播训练神经网络常受梯度消失或爆炸问题阻碍。本研究通过分析并控制网络雅可比矩阵,设计了缓解这些问题的架构。首先,我们对一类具有正交雅可比矩阵的网络进行了统一表征,该类别既包含已知架构,也催生了新的可训练设计方案。随后,我们引入了松弛化的持久子空间正交性概念。这一概念适用于更广泛的网络类别,其雅可比矩阵仅在非平凡子空间上保持等距特性。我们提出了实施该条件的实用机制,并通过实证表明:该条件对于在反向传播过程中充分保持梯度范数是必要的,从而能够实现极深网络的训练。我们通过大量实验验证了理论的有效性。

0
下载
关闭预览

相关内容

【ETZH博士论文】深度神经网络的数学理解
专知会员服务
36+阅读 · 2025年4月27日
专知会员服务
24+阅读 · 2021年10月14日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
深度学习可解释性研究进展
专知
19+阅读 · 2020年6月26日
SFFAI报告 | 常建龙 :深度卷积网络中的卷积算子研究进展
人工智能前沿讲习班
11+阅读 · 2018年10月22日
神经网络可解释性最新进展
专知
18+阅读 · 2018年3月10日
【学界】从可视化到新模型:纵览深度学习的视觉可解释性
GAN生成式对抗网络
10+阅读 · 2018年3月4日
【深度学习基础】4. Recurrent Neural Networks
微信AI
16+阅读 · 2017年7月19日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【ETZH博士论文】深度神经网络的数学理解
专知会员服务
36+阅读 · 2025年4月27日
专知会员服务
24+阅读 · 2021年10月14日
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员