The Geometric Cost of Normalization: Affine Bounds on the Bayesian Complexity of Neural Networks - 专知论文

会员服务 ·

0

归一化 · 流形 · 曲率 · 代价 · 贝叶斯 ·

The Geometric Cost of Normalization: Affine Bounds on the Bayesian Complexity of Neural Networks

翻译：归一化的几何代价：神经网络贝叶斯复杂度的仿射界

from arxiv, 12 pages, 2 figures

LayerNorm and RMSNorm impose fundamentally different geometric constraints on their outputs - and this difference has a precise, quantifiable consequence for model complexity. We prove that LayerNorm's mean-centering step, by confining data to a linear hyperplane (through the origin), reduces the Local Learning Coefficient (LLC) of the subsequent weight matrix by exactly $m/2$ (where $m$ is its output dimension); RMSNorm's projection onto a sphere preserves the LLC entirely. This reduction is structurally guaranteed before any training begins, determined by data manifold geometry alone. The underlying condition is a geometric threshold: for the codimension-one manifolds we study, the LLC drop is binary -- any non-zero curvature, regardless of sign or magnitude, is sufficient to preserve the LLC, while only affinely flat manifolds cause the drop. At finite sample sizes this threshold acquires a smooth crossover whose width depends on how much of the data distribution actually experiences the curvature, not merely on whether curvature exists somewhere. We verify both predictions experimentally with controlled single-layer scaling experiments using the wrLLC framework. We further show that Softmax simplex data introduces a "smuggled bias" that activates the same $m/2$ LLC drop when paired with an explicit downstream bias, proved via the affine symmetry extension of the main theorem and confirmed empirically.

翻译：层归一化（LayerNorm）与均方根归一化（RMSNorm）对其输出施加了根本不同的几何约束——这一差异对模型复杂度具有精确且可量化的影响。我们证明，层归一化通过将数据约束至一个穿过原点的线性超平面，使其均值中心化步骤将后续权重矩阵的局部学习系数（LLC）严格降低$m/2$（其中$m$为其输出维度）；而均方根归一化向球面的投影则完全保持LLC不变。这种降低在训练开始前即受结构保证，完全由数据流形几何决定。其基础条件是几何阈值：对于所研究的余维一流形，LLC下降是二元的——任何非零曲率（无论符号或大小）都足以维持LLC，只有仿射平坦流形会导致下降。在有限样本量下，该阈值呈现平滑过渡，其宽度取决于数据分布实际经历曲率的部分，而不仅仅是曲率是否存在。我们通过wrLLC框架进行受控单层缩放实验，验证了这两个预测。进一步，我们证明Softmax单纯形数据会引入一个“隐蔽偏置”，当与显式下游偏置结合时，会激活相同的$m/2$ LLC下降，此结论由主定理的仿射对称扩展所证明，并经实验证实。

0

相关内容

归一化

【CVPR2021教程】深度学习中的归一化技术:方法、分析和应用

专知会员服务

42+阅读 · 2021年6月21日

Graph Normalization (GN)：为图神经网络学习一个有效的图归一化

Graph Normalization (GN)：为图神经网络学习一个有效的图归一化

专知会员服务

16+阅读 · 2020年9月28日

【Google】具有秩-1因子的高效可扩展贝叶斯神经网络，Efficient and Scalable Bayesian Neural Nets with Rank-1 Factors

【Google】具有秩-1因子的高效可扩展贝叶斯神经网络，Efficient and Scalable Bayesian Neural Nets with Rank-1 Factors

专知会员服务

14+阅读 · 2020年5月19日

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

专知会员服务

35+阅读 · 2020年4月15日

【Nature论文】深度网络中的梯度下降复杂度控制

【Nature论文】深度网络中的梯度下降复杂度控制

专知会员服务

41+阅读 · 2020年3月9日

最大均方差正则化贝叶斯神经网络，Bayesian Neural Networks With Maximum Mean Discrepancy Regularization

最大均方差正则化贝叶斯神经网络，Bayesian Neural Networks With Maximum Mean Discrepancy Regularization

专知会员服务

54+阅读 · 2020年3月5日

【纽约大学】贝叶斯深度学习和泛化性的概率观点，附27页PDF下载

【纽约大学】贝叶斯深度学习和泛化性的概率观点，附27页PDF下载

专知会员服务

84+阅读 · 2020年2月25日

【论文推荐】深度学习中贝叶斯不确定性简单基线（A simple baseline for bayesian uncertainty in deep learning）

【论文推荐】深度学习中贝叶斯不确定性简单基线（A simple baseline for bayesian uncertainty in deep learning）

专知会员服务

46+阅读 · 2019年12月25日

【NeurlPS2019论文总结】一致收敛可能无法解释深度学习中的泛化现象，Uniform convergence may be unable to explain generalization in deep learning

【NeurlPS2019论文总结】一致收敛可能无法解释深度学习中的泛化现象，Uniform convergence may be unable to explain generalization in deep learning

专知会员服务

15+阅读 · 2019年12月17日

【NeurIPS2019|杰出新方向论文奖】统一收敛可能无法解释深度学习中的泛化性（Uniform convergence maybe unable to explain generalization in deep learning）

【NeurIPS2019|杰出新方向论文奖】统一收敛可能无法解释深度学习中的泛化性（Uniform convergence maybe unable to explain generalization in deep learning）

专知会员服务

13+阅读 · 2019年12月9日

【2022新书】深度学习归一化技术，117页pdf

【2022新书】深度学习归一化技术，117页pdf

专知

29+阅读 · 2022年11月25日

系列教程GNN-algorithms之三：《将图卷积简化进行到底—SGC》

系列教程GNN-algorithms之三：《将图卷积简化进行到底—SGC》

专知

10+阅读 · 2020年8月5日

【纽约大学】贝叶斯深度学习和泛化性的概率观点，附27页PPT下载

【纽约大学】贝叶斯深度学习和泛化性的概率观点，附27页PPT下载

专知

27+阅读 · 2020年2月25日

【机器学习】一文读懂线性回归、岭回归和Lasso回归

【机器学习】一文读懂线性回归、岭回归和Lasso回归

AINLP

20+阅读 · 2019年10月12日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

详解GAN的谱归一化（Spectral Normalization）

详解GAN的谱归一化（Spectral Normalization）

PaperWeekly

11+阅读 · 2019年2月13日

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

专知

14+阅读 · 2018年2月4日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

学界 | 深度学习在单图像超分辨率上的应用：SRCNN、Perceptual loss、SRResNet

学界 | 深度学习在单图像超分辨率上的应用：SRCNN、Perceptual loss、SRResNet

机器之心

12+阅读 · 2017年11月7日

【深度学习基础】4. Recurrent Neural Networks

【深度学习基础】4. Recurrent Neural Networks

微信AI

16+阅读 · 2017年7月19日

贝叶斯网分解理论及其应用

国家自然科学基金

9+阅读 · 2017年12月31日

复杂网络中部分同步斑图的研究

国家自然科学基金

0+阅读 · 2015年12月31日

概率和平均框架下一系列Sobolev空间中的函数逼近与恢复

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

非凸稀疏优化的恢复条件与低复杂度算法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

状态依赖脉冲微分方程的几何性质研究及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

激光点云数据处理中基于贝叶斯抽样一致性的模型参数稳健估计方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

图的谱方法及其在纳米尺度集成电路分析优化中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

反馈神经网络统一模型临界动力学研究及其在类脑计算机研制中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

Learning Rate Transfer in Normalized Transformers

Arxiv

0+阅读 · 5月1日

Teacher Forcing as Generalized Bayes: Optimization Geometry Mismatch in Switching Surrogates for Chaotic Dynamics

Arxiv

0+阅读 · 4月28日

Geometric Layer-wise Approximation Rates for Deep Networks

Arxiv

0+阅读 · 4月22日

Matrix-Free Multigrid with Algebraically Consistent Coarsening on Adaptive Octrees

Arxiv

0+阅读 · 4月20日

Bayesian Nonparametric Modeling for Multivariate Conditional Copula Regression with Varying Coefficients

Arxiv

0+阅读 · 4月14日

Distribution-dependent Generalization Bounds for Tuning Linear Regression Across Tasks

Arxiv

0+阅读 · 4月7日

Minimaxity and Admissibility of Bayesian Neural Networks

Arxiv

1+阅读 · 4月6日

The Riemannian Geometry Associated to Gradient Flows of Linear Convolutional Networks

Arxiv

0+阅读 · 4月5日

On the Interplay of Priors and Overparametrization in Bayesian Neural Network Posteriors

Arxiv

0+阅读 · 3月23日

On the Geometric Coherence of Global Aggregation in Federated Graph Neural Networks

Arxiv

0+阅读 · 3月23日

VIP会员

文章信息

相关主题

最新内容

对抗环境下超视距目标打击的情报支援

对抗环境下超视距目标打击的情报支援

专知会员服务

4+阅读 · 今天14:49

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

专知会员服务

1+阅读 · 今天14:25

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

专知会员服务

3+阅读 · 今天13:57

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

专知会员服务

2+阅读 · 今天13:27

《无人机对海面作战影响评估》

《无人机对海面作战影响评估》

专知会员服务

13+阅读 · 7月21日

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

专知会员服务

10+阅读 · 7月21日

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

专知会员服务

4+阅读 · 7月21日

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

专知会员服务

6+阅读 · 7月21日

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

8+阅读 · 7月21日

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

6+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

8+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

6+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

9+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

8+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

10+阅读 · 7月20日

相关VIP内容

【CVPR2021教程】深度学习中的归一化技术:方法、分析和应用

专知会员服务

42+阅读 · 2021年6月21日

Graph Normalization (GN)：为图神经网络学习一个有效的图归一化

Graph Normalization (GN)：为图神经网络学习一个有效的图归一化

专知会员服务

16+阅读 · 2020年9月28日

【Google】具有秩-1因子的高效可扩展贝叶斯神经网络，Efficient and Scalable Bayesian Neural Nets with Rank-1 Factors

【Google】具有秩-1因子的高效可扩展贝叶斯神经网络，Efficient and Scalable Bayesian Neural Nets with Rank-1 Factors

专知会员服务

14+阅读 · 2020年5月19日

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

专知会员服务

35+阅读 · 2020年4月15日

【Nature论文】深度网络中的梯度下降复杂度控制

【Nature论文】深度网络中的梯度下降复杂度控制

专知会员服务

41+阅读 · 2020年3月9日

最大均方差正则化贝叶斯神经网络，Bayesian Neural Networks With Maximum Mean Discrepancy Regularization

最大均方差正则化贝叶斯神经网络，Bayesian Neural Networks With Maximum Mean Discrepancy Regularization

专知会员服务

54+阅读 · 2020年3月5日

【纽约大学】贝叶斯深度学习和泛化性的概率观点，附27页PDF下载

【纽约大学】贝叶斯深度学习和泛化性的概率观点，附27页PDF下载

专知会员服务

84+阅读 · 2020年2月25日

【论文推荐】深度学习中贝叶斯不确定性简单基线（A simple baseline for bayesian uncertainty in deep learning）

【论文推荐】深度学习中贝叶斯不确定性简单基线（A simple baseline for bayesian uncertainty in deep learning）

专知会员服务

46+阅读 · 2019年12月25日

【NeurlPS2019论文总结】一致收敛可能无法解释深度学习中的泛化现象，Uniform convergence may be unable to explain generalization in deep learning

【NeurlPS2019论文总结】一致收敛可能无法解释深度学习中的泛化现象，Uniform convergence may be unable to explain generalization in deep learning

专知会员服务

15+阅读 · 2019年12月17日

【NeurIPS2019|杰出新方向论文奖】统一收敛可能无法解释深度学习中的泛化性（Uniform convergence maybe unable to explain generalization in deep learning）

【NeurIPS2019|杰出新方向论文奖】统一收敛可能无法解释深度学习中的泛化性（Uniform convergence maybe unable to explain generalization in deep learning）

专知会员服务

13+阅读 · 2019年12月9日

热门VIP内容

开通专知VIP会员享更多权益服务

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

对抗环境下超视距目标打击的情报支援

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

相关资讯

【2022新书】深度学习归一化技术，117页pdf

【2022新书】深度学习归一化技术，117页pdf

专知

29+阅读 · 2022年11月25日

系列教程GNN-algorithms之三：《将图卷积简化进行到底—SGC》

系列教程GNN-algorithms之三：《将图卷积简化进行到底—SGC》

专知

10+阅读 · 2020年8月5日

【纽约大学】贝叶斯深度学习和泛化性的概率观点，附27页PPT下载

【纽约大学】贝叶斯深度学习和泛化性的概率观点，附27页PPT下载

专知

27+阅读 · 2020年2月25日

【机器学习】一文读懂线性回归、岭回归和Lasso回归

【机器学习】一文读懂线性回归、岭回归和Lasso回归

AINLP

20+阅读 · 2019年10月12日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

详解GAN的谱归一化（Spectral Normalization）

详解GAN的谱归一化（Spectral Normalization）

PaperWeekly

11+阅读 · 2019年2月13日

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

专知

14+阅读 · 2018年2月4日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

学界 | 深度学习在单图像超分辨率上的应用：SRCNN、Perceptual loss、SRResNet

学界 | 深度学习在单图像超分辨率上的应用：SRCNN、Perceptual loss、SRResNet

机器之心

12+阅读 · 2017年11月7日

【深度学习基础】4. Recurrent Neural Networks

【深度学习基础】4. Recurrent Neural Networks

微信AI

16+阅读 · 2017年7月19日

相关论文

Learning Rate Transfer in Normalized Transformers

Arxiv

0+阅读 · 5月1日

Teacher Forcing as Generalized Bayes: Optimization Geometry Mismatch in Switching Surrogates for Chaotic Dynamics

Arxiv

0+阅读 · 4月28日

Geometric Layer-wise Approximation Rates for Deep Networks

Arxiv

0+阅读 · 4月22日

Matrix-Free Multigrid with Algebraically Consistent Coarsening on Adaptive Octrees

Arxiv

0+阅读 · 4月20日

Bayesian Nonparametric Modeling for Multivariate Conditional Copula Regression with Varying Coefficients

Arxiv

0+阅读 · 4月14日

Distribution-dependent Generalization Bounds for Tuning Linear Regression Across Tasks

Arxiv

0+阅读 · 4月7日

Minimaxity and Admissibility of Bayesian Neural Networks

Arxiv

1+阅读 · 4月6日

The Riemannian Geometry Associated to Gradient Flows of Linear Convolutional Networks

Arxiv

0+阅读 · 4月5日

On the Interplay of Priors and Overparametrization in Bayesian Neural Network Posteriors

Arxiv

0+阅读 · 3月23日

On the Geometric Coherence of Global Aggregation in Federated Graph Neural Networks

Arxiv

0+阅读 · 3月23日

相关基金

贝叶斯网分解理论及其应用

国家自然科学基金

9+阅读 · 2017年12月31日

复杂网络中部分同步斑图的研究

国家自然科学基金

0+阅读 · 2015年12月31日

概率和平均框架下一系列Sobolev空间中的函数逼近与恢复

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

非凸稀疏优化的恢复条件与低复杂度算法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

状态依赖脉冲微分方程的几何性质研究及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

激光点云数据处理中基于贝叶斯抽样一致性的模型参数稳健估计方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

图的谱方法及其在纳米尺度集成电路分析优化中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

反馈神经网络统一模型临界动力学研究及其在类脑计算机研制中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员