Empirical power--law scaling has been widely observed across modern deep learning systems, yet its theoretical origins and scope of validity remain incompletely understood. The Generalized Resolution--Shell Dynamics (GRSD) framework models learning as spectral energy transport across logarithmic resolution shells, providing a coarse--grained dynamical description of training. Within GRSD, power--law scaling corresponds to a particularly simple renormalized shell dynamics; however, such behavior is not automatic and requires additional structural properties of the learning process. In this work, we identify a set of sufficient conditions under which the GRSD shell dynamics admits a renormalizable coarse--grained description. These conditions constrain the learning configuration at multiple levels, including boundedness of gradient propagation in the computation graph, weak functional incoherence at initialization, controlled Jacobian evolution along training, and log--shift invariance of renormalized shell couplings. We further show that power--law scaling does not follow from renormalizability alone, but instead arises as a rigidity consequence: once log--shift invariance is combined with the intrinsic time--rescaling covariance of gradient flow, the renormalized GRSD velocity field is forced into a power--law form.


翻译:经验幂律标度在现代深度学习系统中被广泛观测到,但其理论起源与有效范围仍未被完全理解。广义分辨率壳层动力学框架将学习建模为跨对数分辨率壳层的谱能量输运,为训练提供了粗粒化的动力学描述。在该框架内,幂律标度对应一种特别简单的重整化壳层动力学;然而,这种行为并非自动产生,而是需要学习过程具备额外的结构特性。本工作中,我们识别了一组充分条件,使得广义分辨率壳层动力学的壳层动力学允许存在可重整化的粗粒度描述。这些条件在多个层面约束了学习配置,包括计算图中梯度传播的有界性、初始化时的弱函数非相干性、训练过程中雅可比矩阵的受控演化,以及重整化壳层耦合的对数平移不变性。我们进一步证明,幂律标度并非仅从可重整性推导得出,而是作为一种刚性结果出现:一旦将对数平移不变性与梯度流固有的时间重标度协变性相结合,重整化的广义分辨率壳层动力学速度场就被强制呈现为幂律形式。

0
下载
关闭预览

相关内容

【阿姆斯特丹博士论文】在测试时学习泛化
专知会员服务
13+阅读 · 2025年7月16日
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
18+阅读 · 2020年9月1日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
<好书推荐> -《Pro Deep Learning with TensorFlow》分享
深度学习与NLP
12+阅读 · 2018年9月13日
【深度】让DL可解释?这一份66页贝叶斯深度学习教程告诉你
GAN生成式对抗网络
15+阅读 · 2018年8月11日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月19日
VIP会员
相关VIP内容
【阿姆斯特丹博士论文】在测试时学习泛化
专知会员服务
13+阅读 · 2025年7月16日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员