基于随机矩阵理论的Transformer模型训练早停策略 (Early-stopping for Transformer model training) - 专知论文

会员服务 ·

0

随机矩阵 · 矩阵理论 · 早停 · Transformer模型 · 模型训练 ·

2025 年 12 月 28 日

Early-stopping for Transformer model training

翻译：基于随机矩阵理论的Transformer模型训练早停策略

Jing He,Hua Jiang,Cheng Li,Siqian Xin,Shuzhen Yang

This work, based on Random Matrix Theory (RMT), introduces a novel early-stopping strategy for Transformer training dynamics. Utilizing the Power Law (PL) fit to tansformer attention matrices as a probe, we demarcate training into three stages: structural exploration, heavy-tailed structure stabilization, and convergence saturation. Empirically, we observe that the spectral density of the shallow self-attention matrix $V$ consistently evolves into a heavy-tailed distribution. Crucially, we propose two consistent and validation-set-free criteria: a quantitative metric for heavy-tailed dynamics and a novel spectral signature indicative of convergence. The strong alignment between these criteria highlights the utility of RMT for monitoring and diagnosing the progression of Transformer model training.

翻译：本研究基于随机矩阵理论，提出了一种针对Transformer训练动态的新型早停策略。通过将幂律拟合作为Transformer注意力矩阵的探针，我们将训练过程划分为三个阶段：结构探索阶段、重尾结构稳定阶段和收敛饱和阶段。实证研究表明，浅层自注意力矩阵$V$的谱密度始终会演化为重尾分布。关键贡献在于提出了两个一致且无需验证集的判定准则：用于量化重尾动态的度量指标，以及指示收敛状态的新型谱特征。这些准则之间的高度一致性，凸显了随机矩阵理论在监测和诊断Transformer模型训练进程中的实用价值。

0

相关内容

随机矩阵

[ICML2024]消除偏差：微调基础模型以进行半监督学习

[ICML2024]消除偏差：微调基础模型以进行半监督学习

专知会员服务

18+阅读 · 2024年5月23日

AAAI 2024 | Structure-CLIP: 使用场景图知识增强多模态结构化表示

AAAI 2024 | Structure-CLIP: 使用场景图知识增强多模态结构化表示

专知会员服务

38+阅读 · 2024年1月11日

【ICML2022】从block-Toeplitz矩阵到图上的微分方程:迈向可扩展掩码Transformers的一般理论

【ICML2022】从block-Toeplitz矩阵到图上的微分方程:迈向可扩展掩码Transformers的一般理论

专知会员服务

18+阅读 · 2022年8月8日

【ICML2022】长尾识别中分布外检测的部分和非对称对比学习

【ICML2022】长尾识别中分布外检测的部分和非对称对比学习

专知会员服务

24+阅读 · 2022年7月5日

【超越消息传递:图神经网络的物理启发范式】Beyond Message Passing: a Physics-Inspired Paradigm for Graph Neural Networks

【超越消息传递:图神经网络的物理启发范式】Beyond Message Passing: a Physics-Inspired Paradigm for Graph Neural Networks

专知会员服务

17+阅读 · 2022年5月10日

【NeurIPS2021】序一致因果图的多任务学习

【NeurIPS2021】序一致因果图的多任务学习

专知会员服务

20+阅读 · 2021年11月7日

MonoGRNet：单目3D目标检测的通用框架（TPAMI2021）

MonoGRNet：单目3D目标检测的通用框架（TPAMI2021）

专知会员服务

18+阅读 · 2021年5月3日

【AAAI2021】近似梯度下降的学习图神经网络

专知会员服务

20+阅读 · 2020年12月9日

【NeurIPS2020】无限可能的联合对比学习

专知会员服务

29+阅读 · 2020年10月2日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知会员服务

28+阅读 · 2020年4月1日

【CVPR 2020 Oral】小样本类增量学习

【CVPR 2020 Oral】小样本类增量学习

专知

20+阅读 · 2020年6月26日

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

专知

12+阅读 · 2020年6月9日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

13+阅读 · 2020年4月1日

基于 Carsim 2016 和 Simulink的无人车运动控制联合仿真（三）

基于 Carsim 2016 和 Simulink的无人车运动控制联合仿真（三）

泡泡机器人SLAM

17+阅读 · 2019年4月29日

NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法

NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法

PaperWeekly

20+阅读 · 2019年4月24日

误差反向传播——CNN

误差反向传播——CNN

统计学习与视觉计算组

31+阅读 · 2018年7月12日

CNN 反向传播算法推导

CNN 反向传播算法推导

统计学习与视觉计算组

30+阅读 · 2017年12月29日

动手写机器学习算法：SVM支持向量机（附代码）

动手写机器学习算法：SVM支持向量机（附代码）

七月在线实验室

12+阅读 · 2017年12月5日

图上的归纳表示学习

图上的归纳表示学习

科技创新与创业

23+阅读 · 2017年11月9日

LibRec 每周算法：DeepFM

LibRec 每周算法：DeepFM

LibRec智能推荐

14+阅读 · 2017年11月6日

半线性广义Tricomi方程Cauchy问题解的生命跨度估计研究

国家自然科学基金

0+阅读 · 2017年12月31日

求解时间依赖问题的隐式时空并行 Schwarz 算法研究

国家自然科学基金

0+阅读 · 2017年12月31日

随机图和随机环境中的接触过程、选举模型、排他过程

国家自然科学基金

0+阅读 · 2015年12月31日

概率和平均框架下一系列Sobolev空间中的函数逼近与恢复

国家自然科学基金

1+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

46+阅读 · 2015年12月31日

光滑函数类的熵数估计

国家自然科学基金

0+阅读 · 2015年12月31日

基于决策模型和预备电位的运动想象BCI研究

国家自然科学基金

3+阅读 · 2015年12月31日

Jacobi行列式和Hilbert变换中的若干问题及应用

国家自然科学基金

0+阅读 · 2014年12月31日

L-函数、大值特征和及相关问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

Poisson流形上的修正Hamilton方法

国家自然科学基金

0+阅读 · 2014年12月31日

On Forgetting and Stability of Score-based Generative models

Arxiv

0+阅读 · 1月29日

Optimal differentially private kernel learning with random projection

Arxiv

0+阅读 · 1月29日

High-dimensional estimation of quadratic variation based on penalized realized variance

Arxiv

0+阅读 · 1月27日

Statistical process control via $p$-values

Arxiv

0+阅读 · 1月24日

An Elementary Approach to Scheduling in Generative Diffusion Models

Arxiv

0+阅读 · 1月20日

Empirical Quantum Advantage in Constrained Optimization from Encoded Unitary Designs

Arxiv

0+阅读 · 1月18日

LLMs for Game Theory: Entropy-Guided In-Context Learning and Adaptive CoT Reasoning

Arxiv

0+阅读 · 1月15日

A Mirror-Descent Algorithm for Computing the Petz-Rényi Capacity of Classical-Quantum Channels

Arxiv

0+阅读 · 1月15日

Terminally constrained flow-based generative models from an optimal control perspective

Arxiv

0+阅读 · 1月14日

Multiple Testing of Local Extrema for Detection of Structural Breaks in Piecewise Linear Models

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

Transformer模型

相关VIP内容

[ICML2024]消除偏差：微调基础模型以进行半监督学习

[ICML2024]消除偏差：微调基础模型以进行半监督学习

专知会员服务

18+阅读 · 2024年5月23日

AAAI 2024 | Structure-CLIP: 使用场景图知识增强多模态结构化表示

AAAI 2024 | Structure-CLIP: 使用场景图知识增强多模态结构化表示

专知会员服务

38+阅读 · 2024年1月11日

【ICML2022】从block-Toeplitz矩阵到图上的微分方程:迈向可扩展掩码Transformers的一般理论

【ICML2022】从block-Toeplitz矩阵到图上的微分方程:迈向可扩展掩码Transformers的一般理论

专知会员服务

18+阅读 · 2022年8月8日

【ICML2022】长尾识别中分布外检测的部分和非对称对比学习

【ICML2022】长尾识别中分布外检测的部分和非对称对比学习

专知会员服务

24+阅读 · 2022年7月5日

【超越消息传递:图神经网络的物理启发范式】Beyond Message Passing: a Physics-Inspired Paradigm for Graph Neural Networks

【超越消息传递:图神经网络的物理启发范式】Beyond Message Passing: a Physics-Inspired Paradigm for Graph Neural Networks

专知会员服务

17+阅读 · 2022年5月10日

【NeurIPS2021】序一致因果图的多任务学习

【NeurIPS2021】序一致因果图的多任务学习

专知会员服务

20+阅读 · 2021年11月7日

MonoGRNet：单目3D目标检测的通用框架（TPAMI2021）

MonoGRNet：单目3D目标检测的通用框架（TPAMI2021）

专知会员服务

18+阅读 · 2021年5月3日

【AAAI2021】近似梯度下降的学习图神经网络

专知会员服务

20+阅读 · 2020年12月9日

【NeurIPS2020】无限可能的联合对比学习

专知会员服务

29+阅读 · 2020年10月2日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知会员服务

28+阅读 · 2020年4月1日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

【CVPR 2020 Oral】小样本类增量学习

【CVPR 2020 Oral】小样本类增量学习

专知

20+阅读 · 2020年6月26日

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

专知

12+阅读 · 2020年6月9日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

13+阅读 · 2020年4月1日

基于 Carsim 2016 和 Simulink的无人车运动控制联合仿真（三）

基于 Carsim 2016 和 Simulink的无人车运动控制联合仿真（三）

泡泡机器人SLAM

17+阅读 · 2019年4月29日

NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法

NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法

PaperWeekly

20+阅读 · 2019年4月24日

误差反向传播——CNN

误差反向传播——CNN

统计学习与视觉计算组

31+阅读 · 2018年7月12日

CNN 反向传播算法推导

CNN 反向传播算法推导

统计学习与视觉计算组

30+阅读 · 2017年12月29日

动手写机器学习算法：SVM支持向量机（附代码）

动手写机器学习算法：SVM支持向量机（附代码）

七月在线实验室

12+阅读 · 2017年12月5日

图上的归纳表示学习

图上的归纳表示学习

科技创新与创业

23+阅读 · 2017年11月9日

LibRec 每周算法：DeepFM

LibRec 每周算法：DeepFM

LibRec智能推荐

14+阅读 · 2017年11月6日

相关论文

On Forgetting and Stability of Score-based Generative models

Arxiv

0+阅读 · 1月29日

Optimal differentially private kernel learning with random projection

Arxiv

0+阅读 · 1月29日

High-dimensional estimation of quadratic variation based on penalized realized variance

Arxiv

0+阅读 · 1月27日

Statistical process control via $p$-values

Arxiv

0+阅读 · 1月24日

An Elementary Approach to Scheduling in Generative Diffusion Models

Arxiv

0+阅读 · 1月20日

Empirical Quantum Advantage in Constrained Optimization from Encoded Unitary Designs

Arxiv

0+阅读 · 1月18日

LLMs for Game Theory: Entropy-Guided In-Context Learning and Adaptive CoT Reasoning

Arxiv

0+阅读 · 1月15日

A Mirror-Descent Algorithm for Computing the Petz-Rényi Capacity of Classical-Quantum Channels

Arxiv

0+阅读 · 1月15日

Terminally constrained flow-based generative models from an optimal control perspective

Arxiv

0+阅读 · 1月14日

Multiple Testing of Local Extrema for Detection of Structural Breaks in Piecewise Linear Models

Arxiv

0+阅读 · 1月13日

相关基金

半线性广义Tricomi方程Cauchy问题解的生命跨度估计研究

国家自然科学基金

0+阅读 · 2017年12月31日

求解时间依赖问题的隐式时空并行 Schwarz 算法研究

国家自然科学基金

0+阅读 · 2017年12月31日

随机图和随机环境中的接触过程、选举模型、排他过程

国家自然科学基金

0+阅读 · 2015年12月31日

概率和平均框架下一系列Sobolev空间中的函数逼近与恢复

国家自然科学基金

1+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

46+阅读 · 2015年12月31日

光滑函数类的熵数估计

国家自然科学基金

0+阅读 · 2015年12月31日

基于决策模型和预备电位的运动想象BCI研究

国家自然科学基金

3+阅读 · 2015年12月31日

Jacobi行列式和Hilbert变换中的若干问题及应用

国家自然科学基金

0+阅读 · 2014年12月31日

L-函数、大值特征和及相关问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

Poisson流形上的修正Hamilton方法

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员