This work, based on Random Matrix Theory (RMT), introduces a novel early-stopping strategy for Transformer training dynamics. Utilizing the Power Law (PL) fit to tansformer attention matrices as a probe, we demarcate training into three stages: structural exploration, heavy-tailed structure stabilization, and convergence saturation. Empirically, we observe that the spectral density of the shallow self-attention matrix $V$ consistently evolves into a heavy-tailed distribution. Crucially, we propose two consistent and validation-set-free criteria: a quantitative metric for heavy-tailed dynamics and a novel spectral signature indicative of convergence. The strong alignment between these criteria highlights the utility of RMT for monitoring and diagnosing the progression of Transformer model training.


翻译:本研究基于随机矩阵理论,提出了一种针对Transformer训练动态的新型早停策略。通过将幂律拟合作为Transformer注意力矩阵的探针,我们将训练过程划分为三个阶段:结构探索阶段、重尾结构稳定阶段和收敛饱和阶段。实证研究表明,浅层自注意力矩阵$V$的谱密度始终会演化为重尾分布。关键贡献在于提出了两个一致且无需验证集的判定准则:用于量化重尾动态的度量指标,以及指示收敛状态的新型谱特征。这些准则之间的高度一致性,凸显了随机矩阵理论在监测和诊断Transformer模型训练进程中的实用价值。

0
下载
关闭预览

相关内容

[ICML2024]消除偏差:微调基础模型以进行半监督学习
专知会员服务
18+阅读 · 2024年5月23日
【NeurIPS2021】序一致因果图的多任务学习
专知会员服务
20+阅读 · 2021年11月7日
MonoGRNet:单目3D目标检测的通用框架(TPAMI2021)
专知会员服务
18+阅读 · 2021年5月3日
专知会员服务
29+阅读 · 2020年10月2日
基于 Carsim 2016 和 Simulink的无人车运动控制联合仿真(三)
CNN 反向传播算法推导
统计学习与视觉计算组
30+阅读 · 2017年12月29日
LibRec 每周算法:DeepFM
LibRec智能推荐
14+阅读 · 2017年11月6日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
[ICML2024]消除偏差:微调基础模型以进行半监督学习
专知会员服务
18+阅读 · 2024年5月23日
【NeurIPS2021】序一致因果图的多任务学习
专知会员服务
20+阅读 · 2021年11月7日
MonoGRNet:单目3D目标检测的通用框架(TPAMI2021)
专知会员服务
18+阅读 · 2021年5月3日
专知会员服务
29+阅读 · 2020年10月2日
相关资讯
基于 Carsim 2016 和 Simulink的无人车运动控制联合仿真(三)
CNN 反向传播算法推导
统计学习与视觉计算组
30+阅读 · 2017年12月29日
LibRec 每周算法:DeepFM
LibRec智能推荐
14+阅读 · 2017年11月6日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员