Neural scaling laws and double-descent phenomena suggest that deep-network training obeys a simple macroscopic structure despite highly nonlinear optimization dynamics. We derive such structure directly from gradient descent in function space. For mean-squared error loss, the training error evolves as $\dot e_t=-M(t)e_t$ with $M(t)=J_{θ(t)}J_{θ(t)}^{\!*}$, a time-dependent self-adjoint operator induced by the network Jacobian. Using Kato perturbation theory, we obtain an exact system of coupled modewise ODEs in the instantaneous eigenbasis of $M(t)$. To extract macroscopic behavior, we introduce a logarithmic spectral-shell coarse-graining and track quadratic error energy across shells. Microscopic interactions within each shell cancel identically at the energy level, so shell energies evolve only through dissipation and external inter-shell interactions. We formalize this via a \emph{renormalizable shell-dynamics} assumption, under which cumulative microscopic effects reduce to a controlled net flux across shell boundaries. Assuming an effective power-law spectral transport in a relevant resolution range, the shell dynamics admits a self-similar solution with a moving resolution frontier and explicit scaling exponents. This framework explains neural scaling laws and double descent, and unifies lazy (NTK-like) training and feature learning as two limits of the same spectral-shell dynamics.


翻译:神经标度律与双重下降现象表明,尽管深度网络的优化动力学具有高度非线性,但其训练过程遵循简单的宏观结构。我们直接从函数空间中的梯度下降推导出这一结构。对于均方误差损失,训练误差随时间演化为 $\dot e_t=-M(t)e_t$,其中 $M(t)=J_{θ(t)}J_{θ(t)}^{\!*}$ 是由网络雅可比矩阵诱导出的时变自伴算子。利用加藤扰动理论,我们在 $M(t)$ 的瞬时特征基中得到了耦合模态常微分方程组的精确形式。为提取宏观行为,我们引入对数谱壳粗粒化方法,并追踪各壳内的二次误差能量。每个壳内的微观相互作用在能量层面精确抵消,因此壳能量仅通过耗散和壳间外部相互作用演化。我们通过\emph{可重归一化壳动力学}假设对此进行形式化描述,在该假设下累积微观效应简化为跨越壳边界的受控净通量。假设在相关分辨率范围内存在有效的幂律谱输运,壳动力学允许一个具有移动分辨率前沿和显式标度指数的自相似解。该框架解释了神经标度律与双重下降现象,并将惰性(类NTK)训练与特征学习统一为同一谱壳动力学的两种极限情形。

0
下载
关闭预览

相关内容

神经网络的拓扑结构,TOPOLOGY OF DEEP NEURAL NETWORKS
专知会员服务
35+阅读 · 2020年4月15日
【2022新书】深度学习归一化技术,117页pdf
专知
29+阅读 · 2022年11月25日
一文读懂线性回归、岭回归和Lasso回归
CSDN
34+阅读 · 2019年10月13日
详解GAN的谱归一化(Spectral Normalization)
PaperWeekly
11+阅读 · 2019年2月13日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月19日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员