The training dynamics of deep neural networks often defy expectations, even as these models form the foundation of modern machine learning. Two prominent examples are grokking, where test performance improves abruptly long after the training loss has plateaued, and the information bottleneck principle, where models progressively discard input information irrelevant to the prediction task as training proceeds. However, the mechanisms underlying these phenomena and their relations remain poorly understood. In this work, we present a unified explanation of such late-phase phenomena through the lens of neural collapse, which characterizes the geometry of learned representations. We show that the contraction of population within-class variance is a key factor underlying both grokking and information bottleneck, and relate this measure to the neural collapse measure defined on the training set. By analyzing the dynamics of neural collapse, we show that distinct time scales between fitting the training set and the progression of neural collapse account for the behavior of the late-phase phenomena. Finally, we validate our theoretical findings on multiple datasets and architectures.


翻译:深度神经网络的训练动态常常出人意料,尽管这些模型构成了现代机器学习的基础。其中两个典型现象是"顿悟"(grokking)——即在训练损失早已趋于稳定后,测试性能突然显著提升;以及信息瓶颈原理——即模型在训练过程中逐步丢弃与预测任务无关的输入信息。然而,这些现象的内在机制及其相互关系仍不甚明晰。本研究通过神经坍缩的视角——该理论描述了学习表征的几何特性——为这类后期训练现象提供了统一解释。我们证明类内方差的收缩是顿悟与信息瓶颈现象的共同关键因素,并将该度量与训练集上定义的神经坍缩度量建立关联。通过分析神经坍缩的动态过程,我们发现训练集拟合与神经坍缩进程之间的不同时间尺度共同决定了后期训练现象的行为特征。最后,我们在多个数据集和架构上验证了理论发现。

0
下载
关闭预览

相关内容

【普林斯顿博士论文】神经符号机器学习推理,133页pdf
专知会员服务
48+阅读 · 2023年2月1日
深度学习中知识蒸馏研究综述
专知会员服务
109+阅读 · 2022年8月13日
专知会员服务
98+阅读 · 2021年8月13日
专知会员服务
117+阅读 · 2020年8月22日
从信息瓶颈理论一瞥机器学习的“大一统理论”
【深度学习】深度学习的核心:掌握训练数据的方法
产业智能官
12+阅读 · 2018年1月14日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员