The Muon optimizer has recently attracted considerable attention for its strong empirical performance and use of orthogonalized updates on matrix-shaped parameters, yet its underlying mechanisms and relationship to adaptive optimizers such as Adam remain insufficiently understood. In this work, we aim to address these questions through a unified spectral perspective. Specifically, we view Muon as the p = 0 endpoint of a family of spectral transformations of the form U \boldsymbolΣ^{p} V' , and consider additional variants with p = 1/2 , p = 1/4 , and p = 1 . These transformations are applied to both first-moment updates, as in momentum SGD, and to root-mean-square (RMS) normalized gradient updates as in Adam. To enable efficient computation, we develop a coupled Newton iteration that avoids explicit singular value decomposition. Across controlled experiments, we find that RMS-normalized updates yield more stable optimization than first-moment updates. Moreover, while spectral compression provides strong stabilization benefits under first-moment updates, the Muon update (p = 0) does not consistently outperform Adam. These results suggest that Muon is best understood as an effective form of spectral normalization, but not a universally superior optimization method. Our source code will be released at https://github.com/Ocram7/BeyondMuon.


翻译:Muon优化器因其强大的经验性能和对矩阵形参数采用正交化更新而近来受到广泛关注,然而其内在机制及其与Adam等自适应优化器之间的关系仍未得到充分理解。在本工作中,我们旨在通过统一的谱视角来解答这些问题。具体而言,我们将Muon视为一族形式为U \boldsymbolΣ^{p} V'的谱变换在p=0处的端点,并考虑p=1/2、p=1/4和p=1的额外变体。这些变换被应用于一阶矩更新(如带动量的SGD)以及应用于均方根归一化梯度更新(如Adam)。为实现高效计算,我们开发了一种避免显式奇异值分解的耦合牛顿迭代法。在对照实验中,我们发现均方根归一化更新比一阶矩更新能产生更稳定的优化。此外,虽然谱压缩在一阶矩更新下提供了强大的稳定化优势,但Muon更新(p=0)并未持续优于Adam。这些结果表明,Muon最好被理解为一种有效的谱归一化形式,而非一种普遍更优的优化方法。我们的源代码将在https://github.com/Ocram7/BeyondMuon发布。

0
下载
关闭预览

相关内容

深度学习了解一下(附53页Slides)
专知
48+阅读 · 2019年5月20日
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月12日
Arxiv
0+阅读 · 1月27日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员