Muon updates matrix parameters via the matrix sign of the gradient and has shown strong empirical gains, yet its dynamics and scaling behavior remain unclear in theory. We study Muon in a linear associative memory model with softmax retrieval and a hierarchical frequency spectrum over query-answer pairs, with and without label noise. In this setting, we show that Gradient Descent (GD) learns frequency components at highly imbalanced rates, leading to slow convergence bottlenecked by low-frequency components. In contrast, the Muon optimizer mitigates this imbalance, leading to faster and more uniform progress. Specifically, in the noiseless case, Muon achieves an exponential speedup over GD; in the noisy case with a power-law frequency spectrum, we derive Muon's scaling law and demonstrate its superior scaling efficiency over GD. Furthermore, we show that Muon can be interpreted as an implicit matrix preconditioner arising from adaptive task alignment and block-symmetric gradient structure. In contrast, the preconditioner with coordinate-wise sign operator could match Muon under oracle access to unknown task representations, which is infeasible for SignGD in practice. Experiments on synthetic long-tail classification and LLaMA-style pre-training corroborate the theory.


翻译:Muon通过梯度的矩阵符号来更新矩阵参数,并展现出显著的实证效果,但其动力学和缩放行为在理论上仍不明确。我们在一个具有softmax检索和查询-答案对分层频谱的线性联想记忆模型中研究Muon,分别考虑有无标签噪声的情况。在此设定下,我们证明梯度下降(GD)以高度不均衡的速率学习频率分量,导致收敛缓慢且受限于低频分量。相比之下,Muon优化器缓解了这种不均衡,实现了更快且更均匀的进展。具体而言,在无噪声情况下,Muon相比GD实现了指数级加速;在具有幂律频谱的有噪声情况下,我们推导了Muon的缩放律,并证明了其相对于GD的优越缩放效率。此外,我们证明Muon可被解释为由自适应任务对齐和块对称梯度结构产生的隐式矩阵预处理子。相比之下,具有逐坐标符号运算的预处理子在获得任务表示的oracle访问时能匹配Muon,但这在SignGD实践中不可行。在合成长尾分类和LLaMA风格预训练上的实验验证了该理论。

0
下载
关闭预览

相关内容

【新书】动力系统的收缩理论,258页pdf
专知会员服务
26+阅读 · 2024年11月22日
深度学习中Attention Mechanism详细介绍:原理、分类及应用
深度学习与NLP
10+阅读 · 2019年2月18日
2018年深度学习优化算法最新综述
计算机视觉战队
10+阅读 · 2018年12月11日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
图上的归纳表示学习
科技创新与创业
23+阅读 · 2017年11月9日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月25日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
【新书】动力系统的收缩理论,258页pdf
专知会员服务
26+阅读 · 2024年11月22日
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员