The Muon optimizer has demonstrated strong empirical performance in pre-training large language models by performing matrix-level gradient (or momentum) orthogonalization in each layer independently. In this work, we propose TEON, a principled generalization of Muon that extends orthogonalization beyond individual layers by modeling the gradients of a neural network as a structured higher-order tensor. We present TEON's improved convergence guarantee over layer-wise Muon, and further develop a practical instantiation of TEON based on the theoretical analysis with corresponding ablation. We evaluate our approach on two widely adopted architectures: GPT-style models, ranging from 130M to 774M parameters, and LLaMA-style models, ranging from 60M to 1B parameters. Experimental results show that TEON consistently improves training and validation perplexity across model scales and exhibits strong robustness under various approximate SVD schemes.


翻译:Muon优化器通过在每一层独立执行矩阵级梯度(或动量)正交化,在大语言模型预训练中展现出强大的实证性能。本文提出TEON,这是Muon的一种原则性推广,它通过将神经网络的梯度建模为结构化的高阶张量,将正交化扩展到单个层之外。我们给出了TEON相较于逐层Muon的改进收敛性保证,并基于理论分析及相应的消融实验进一步开发了TEON的一个实用实例。我们在两种广泛采用的架构上评估了我们的方法:参数规模从1.3亿到7.74亿的GPT风格模型,以及参数规模从6千万到10亿的LLaMA风格模型。实验结果表明,TEON在不同模型规模下均能持续改善训练和验证困惑度,并在多种近似奇异值分解方案下表现出很强的鲁棒性。

0
下载
关闭预览

相关内容

预训练语言模型fine-tuning近期进展概述
专知会员服务
40+阅读 · 2021年4月9日
<好书推荐> -《Pro Deep Learning with TensorFlow》分享
深度学习与NLP
12+阅读 · 2018年9月13日
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关VIP内容
预训练语言模型fine-tuning近期进展概述
专知会员服务
40+阅读 · 2021年4月9日
相关基金
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员