Spectral optimizers such as Muon have recently shown strong empirical performance in large-scale language model training, but the source and extent of their advantage remain poorly understood. We study this question through the linear associative memory problem, a tractable model for factual recall in transformer-based models. In particular, we go beyond orthogonal embeddings and consider Gaussian inputs and outputs, which allows the number of stored associations to greatly exceed the embedding dimension. Our main result sharply characterizes the recovery rates of one step of Muon, SGD, and Newton's method on the logistic regression loss under a power law frequency distribution. We show that the storage capacity of Muon significantly exceeds that of SGD, and even matches Newton's method while only using first-order information. Moreover, Muon saturates at a larger critical batch size. We further analyze the multi-step dynamics under a thresholded gradient approximation and show that Muon achieves a substantially faster initial recovery rate than SGD, while both methods eventually converge to the information-theoretic limit at comparable speeds. Experiments on synthetic tasks validate the predicted scaling laws. Our analysis provides a quantitative understanding of the signal amplification of spectral preconditioners and lays the groundwork for establishing scaling laws across more practical language modeling tasks and optimizers.


翻译:诸如Muon等频谱优化器近期在大规模语言模型训练中展现出强劲的实证性能,但其优势来源与程度仍未被充分理解。我们通过线性联想记忆问题(一种可表征Transformer模型事实性回忆的可解模型)来研究该问题。具体而言,我们超越正交嵌入假设,考虑高斯输入与输出设定,允许存储的关联数量远超嵌入维度。主要结果精确刻画了在幂律频率分布逻辑回归损失函数下,单步Muon、随机梯度下降(SGD)及牛顿法的恢复率。研究表明,Muon的存储容量显著超过SGD,且仅使用一阶信息即可匹配牛顿法。此外,Muon在更大临界批量下达到饱和。我们进一步在阈值梯度近似下分析多步动力学,证明Muon的初始恢复速度远快于SGD,而两者最终以相近速度收敛至信息论极限。基于合成任务的实验验证了预测的标度律。该分析为频谱预条件子的信号放大效应提供了定量理解,并为在更实际的语言建模任务与优化器中建立标度律奠定基础。

0
下载
关闭预览

相关内容

【ICML2025教程】联想记忆的现代方法
专知会员服务
15+阅读 · 2025年7月13日
机器学习组合优化
专知会员服务
111+阅读 · 2021年2月16日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
干货|掌握机器学习数学基础之优化[1](重点知识)
机器学习研究会
10+阅读 · 2017年11月19日
深度学习中的注意力机制
CSDN大数据
24+阅读 · 2017年11月2日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Arxiv
0+阅读 · 2月22日
VIP会员
相关主题
最新内容
《多域战场上反制小型无人机系统》150页
专知会员服务
14+阅读 · 今天7:47
战场人工智能:增强陆地作战能力的发现与要求
专知会员服务
3+阅读 · 今天7:37
以人工智能为中心的指挥控制
专知会员服务
3+阅读 · 今天7:14
《基于深度强化学习的反无人机技术研究》178页
专知会员服务
13+阅读 · 6月10日
“史诗怒火”行动与“AI中心战”模式的浮现
专知会员服务
14+阅读 · 6月10日
【CVPR2026教程】扩散模型的解析理解
专知会员服务
6+阅读 · 6月10日
相关VIP内容
【ICML2025教程】联想记忆的现代方法
专知会员服务
15+阅读 · 2025年7月13日
机器学习组合优化
专知会员服务
111+阅读 · 2021年2月16日
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员