The Muon optimizer, a matrix-structured algorithm that leverages spectral orthogonalization of gradients, is a milestone in the pretraining of large language models. However, the underlying mechanisms of Muon -- particularly the role of gradient orthogonalization -- remain poorly understood, with very few works providing end-to-end analyses that rigorously explain its advantages in concrete applications. We take a step by studying the effectiveness of a simplified variant of Muon through two case studies: matrix factorization, and in-context learning of linear transformers. For both problems, we prove that simplified Muon converges linearly with iteration complexities independent of the relevant condition number, provably outperforming gradient descent and Adam. Our analysis reveals that the Muon dynamics decouple into a collection of independent scalar sequences in the spectral domain, each exhibiting similar convergence behavior. Our theory formalizes the preconditioning effect induced by spectral orthogonalization, offering insight into Muon's effectiveness in these matrix optimization problems and potentially beyond.


翻译:Muon优化器是一种利用梯度谱正交化的矩阵结构算法,是大语言模型预训练领域的里程碑。然而,Muon的内在机制——尤其是梯度正交化的作用——至今仍未得到充分理解,目前极少有研究提供能够严格解释其在具体应用中优势的端到端分析。我们通过两个案例研究迈出了探索的一步:矩阵分解与线性Transformer的上下文学习。针对这两个问题,我们证明了简化版Muon能够以线性速率收敛,且其迭代复杂度与相关条件数无关,在理论上优于梯度下降法和Adam。我们的分析表明,Muon的动态过程在谱域中解耦为一系列独立的标量序列,每个序列都表现出相似的收敛行为。该理论形式化地揭示了谱正交化所诱导的预条件效应,为理解Muon在这些矩阵优化问题乃至更广泛场景中的有效性提供了理论依据。

0
下载
关闭预览

相关内容

深度学习和基础模型在时间序列预测中的综述
专知会员服务
50+阅读 · 2024年1月26日
专知会员服务
12+阅读 · 2021年7月27日
以BERT为例,如何优化机器学习模型性能?
专知
10+阅读 · 2019年10月3日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
详解GAN的谱归一化(Spectral Normalization)
PaperWeekly
11+阅读 · 2019年2月13日
博客 | 机器学习中的数学基础(凸优化)
AI研习社
14+阅读 · 2018年12月16日
2018年深度学习优化算法最新综述
计算机视觉战队
10+阅读 · 2018年12月11日
从浅层模型到深度模型:概览机器学习优化算法
机器之心
27+阅读 · 2017年7月9日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
深度学习和基础模型在时间序列预测中的综述
专知会员服务
50+阅读 · 2024年1月26日
专知会员服务
12+阅读 · 2021年7月27日
相关资讯
以BERT为例,如何优化机器学习模型性能?
专知
10+阅读 · 2019年10月3日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
详解GAN的谱归一化(Spectral Normalization)
PaperWeekly
11+阅读 · 2019年2月13日
博客 | 机器学习中的数学基础(凸优化)
AI研习社
14+阅读 · 2018年12月16日
2018年深度学习优化算法最新综述
计算机视觉战队
10+阅读 · 2018年12月11日
从浅层模型到深度模型:概览机器学习优化算法
机器之心
27+阅读 · 2017年7月9日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员