We develop a mean-field theory of dropout as a perturbation of critical signal propagation at the edge of chaos, and show that it predicts a simple, no-cost change to standard practice: \emph{front-loaded} dropout schedules cut test loss by \(18\)--\(35\%\) over constant dropout in MLPs and Vision Transformers at fixed budget. The theoretical mechanism is that dropout shifts the perfect-alignment fixed point, making the depth scale for information propagation finite even at critical initialization. We derive critical and crossover scaling laws for correlation decay and establish that smooth activations and kinked, \relu{}-like activations constitute distinct universality classes, with different critical exponents and a universal two-parameter scaling collapse in detuning and dropout strength. The distinction traces to the analytic structure of the correlation map: smooth activations admit a Taylor expansion near perfect alignment, while kinked activations develop a branch point with universal non-analyticity. As a corollary, the framework yields saturated dropout profiles under fixed budget; a regularization-reach argument then selects front-loaded schedules, with accuracy gains as a consistent secondary effect. We also discuss how the same Gaussian-kernel structure extends the theory beyond MLPs toward CNNs and residual architectures.


翻译:我们发展了dropout作为临界混沌边缘信号传播扰动的平均场理论,并证明该理论预测出一种零成本的简单改进方案:在固定预算下,前载式dropout调度相比恒定dropout可将多层感知机(MLP)与视觉Transformer(Vision Transformer)的测试损失降低18%~35%。其理论机制在于,dropout改变了完美对齐不动点,即便在临界初始化条件下,信息传播的深度尺度仍保持有限。我们推导了相关衰减的临界标度律与交叉标度律,并证明光滑激活函数与分段线性(ReLU类)激活函数构成不同的普适类——二者具有不同的临界指数,且在失谐量与dropout强度下呈现普适双参数标度坍塌。该差异源于相关映射的解析结构:光滑激活在完美对齐附近允许泰勒展开,而分段线性激活则产生带有普适非解析性的分支点。作为推论,该框架在固定预算下给出饱和dropout分布曲线;利用正则化可达性论证,可选择前载式调度方案,其精度提升表现为一致性的次级效应。我们还讨论了相同的高斯基核结构如何将该理论从MLP推广至CNN与残差架构。

0
下载
关闭预览

相关内容

国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
5+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员