LoRA-Muon: Spectral Steepest Descent on the Low-Rank Manifold - 专知论文

会员服务 ·

0

LoRA · 低秩 · 因子 · 优化器 · 最速下降 ·

LoRA-Muon: Spectral Steepest Descent on the Low-Rank Manifold

翻译：标题：LoRA-Muon：低秩流形上的谱最速下降法

Franz Louis Cesista,Katherine Crowson,Cédric Simal,Stella Biderman

from arxiv, 20 pages, 4 figures

Low-Rank Adaptation (LoRA) significantly reduces compute and memory costs for finetuning Deep Learning models but is often harder to tune than dense training: when using factor-wise optimizers such as AdamW, it is sensitive to initialization choices, its optimal learning rates transfer poorly across ranks, and it often fails to beat dense baselines. We derive LoRA-Muon by applying the Muon optimizer's spectral steepest-descent rule to the low-rank setting. Along with our split weight-decay rule, our main claim is that LoRA-Muon is a good low-rank proxy for full-rank Muon and Shampoo-family optimizers. Its optimal learning rates transfer across rank, width, depth, and factor-rescaling. In our compute-matched TinyShakespeare study, a rank-$2$ proxy recovers the dense best tested learning rate, and a rank-$32$ LoRA-Muon run attains lower mean validation loss than the dense baseline in the seed-averaged sweep. We further show that the Spectron optimizer depends on arbitrary factor scaling, so it would likely be a poor fit when finetuning starts from badly imbalanced factors, and that LoRA-RITE's simplified QR-coordinate core implements the same spectral update. LoRA-Muon computes that update without QR-decomposition and avoids storing second moments, making it more accelerator-friendly and memory-efficient.

翻译：摘要：低秩适配（LoRA）显著降低了深度学习模型微调的计算与内存成本，但其调优难度通常高于全秩训练：当使用逐因子优化器（如AdamW）时，该方法对初始化选择敏感，最优学习率难以在不同秩之间迁移，且常无法超越全秩基线。我们通过将Muon优化器的谱最速下降法则应用于低秩场景，推导出LoRA-Muon方法。结合我们提出的拆分权重衰减规则，核心观点是：LoRA-Muon可作为全秩Muon及Shampoo族优化器有效的低秩代理。其最优学习率可跨秩、宽度、深度及因子重缩放迁移。在计算量匹配的TinyShakespeare实验中，秩为2的代理模型恢复了全秩训练的最优已验证学习率，而秩为32的LoRA-Muon运行在种子平均扫描中实现了低于全秩基线的平均验证损失。我们进一步证明，Spectron优化器依赖于任意因子缩放，因此在从严重不平衡因子状态开始微调时可能不适用；同时，LoRA-RITE简化后的QR坐标核心实现了相同的谱更新。LoRA-Muon无需QR分解即可完成该更新，且避免存储二阶矩，从而对加速器更友好且内存效率更高。

0

相关内容

LoRA

《对抗环境下面向特种作战的LoRa通信》最新130页

《对抗环境下面向特种作战的LoRa通信》最新130页

专知会员服务

14+阅读 · 3月30日

LoRA 变体的统一研究：分类体系、文献综述、开源代码库与实证评估

LoRA 变体的统一研究：分类体系、文献综述、开源代码库与实证评估

专知会员服务

13+阅读 · 2月2日

【ICLR2025】大型语言模型的动态低秩稀疏适应

【ICLR2025】大型语言模型的动态低秩稀疏适应

专知会员服务

14+阅读 · 2025年2月21日

【ICLR2025】RANDLORA: 全秩参数高效微调大规模模型

【ICLR2025】RANDLORA: 全秩参数高效微调大规模模型

专知会员服务

15+阅读 · 2025年2月4日

大语言模型的LoRA研究综述

大语言模型的LoRA研究综述

专知会员服务

55+阅读 · 2024年7月17日

【ACL2024】DoRA：通过动态秩分布增强参数高效微调

【ACL2024】DoRA：通过动态秩分布增强参数高效微调

专知会员服务

21+阅读 · 2024年5月28日

【ICML2024】DoRA：权重分解的低秩适应

【ICML2024】DoRA：权重分解的低秩适应

专知会员服务

20+阅读 · 2024年5月6日

【ICLR2024】MathVista:视觉背景下基础模型的数学推理评估

【ICLR2024】MathVista:视觉背景下基础模型的数学推理评估

专知会员服务

35+阅读 · 2024年1月20日

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

专知会员服务

33+阅读 · 2022年3月4日

低秩稀疏矩阵优化问题的模型与算法

专知会员服务

46+阅读 · 2020年7月29日

【ICML2020】拉普拉斯正则化小样本学习，Laplacian Regularized Few-Shot Learning

【ICML2020】拉普拉斯正则化小样本学习，Laplacian Regularized Few-Shot Learning

专知

27+阅读 · 2020年7月3日

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

专知

58+阅读 · 2020年7月2日

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

机器之心

11+阅读 · 2019年6月3日

从泰勒展开来看梯度下降算法

从泰勒展开来看梯度下降算法

深度学习每日摘要

13+阅读 · 2019年4月9日

机器学习中的最优化算法总结

机器学习中的最优化算法总结

人工智能前沿讲习班

22+阅读 · 2019年3月22日

【泡泡一分钟】LeGO-LOAM：可变地形下的轻量级和地面优化激光雷达测距和测绘

【泡泡一分钟】LeGO-LOAM：可变地形下的轻量级和地面优化激光雷达测距和测绘

泡泡机器人SLAM

13+阅读 · 2019年1月14日

博客 | 机器学习中的数学基础（凸优化）

博客 | 机器学习中的数学基础（凸优化）

AI研习社

14+阅读 · 2018年12月16日

2018年深度学习优化算法最新综述

2018年深度学习优化算法最新综述

计算机视觉战队

10+阅读 · 2018年12月11日

简述多种降维算法

简述多种降维算法

算法与数学之美

11+阅读 · 2018年9月23日

精品公开课 | 随机梯度下降算法综述

精品公开课 | 随机梯度下降算法综述

七月在线实验室

13+阅读 · 2017年7月11日

广义Lorenz系统族解的有界性研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于Lowrank分解的谱方法和有限差分地震正演模拟

国家自然科学基金

0+阅读 · 2015年12月31日

广义低秩矩阵重构算法及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于低秩表示的鲁棒特征抽取和分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

非凸稀疏优化的恢复条件与低复杂度算法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于自适应交叉近似的低秩分解算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于稀疏理论和图Laplacian矩阵的图像去噪理论与方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

矩阵低秩稀疏分解的两步凸松弛法研究

国家自然科学基金

2+阅读 · 2015年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

某些分形集上拉普拉斯算子的谱分析及相关问题

国家自然科学基金

0+阅读 · 2014年12月31日

SDS-LoRA: Overcoming Anisotropic Gradient Scaling in Low-Rank Adaptation

Arxiv

0+阅读 · 6月15日

PreLort: Prefix-Nested LoRA for Federated Fine-Tuning under Rank Heterogeneity

Arxiv

0+阅读 · 6月14日

FedRot-LoRA: Mitigating Rotational Misalignment in Federated LoRA

Arxiv

0+阅读 · 6月11日

Beyond LoRA: Is Sparsity-Induced Adaptation Better?

Arxiv

0+阅读 · 6月11日

The Hidden Power of Scaling Factor in LoRA Optimization

Arxiv

0+阅读 · 6月11日

LoRA-Key: User-Centric LoRA Watermarking for Text-to-Image Diffusion Models

Arxiv

0+阅读 · 6月7日

LoRA-Key: User-Centric LoRA Watermarking for Text-to-Image Diffusion Models

Arxiv

0+阅读 · 5月28日

FLoRIST: Singular Value Thresholding for Efficient and Accurate Federated Fine-Tuning of Large Language Models

Arxiv

0+阅读 · 5月22日

Federated LoRA Fine-Tuning for LLMs via Collaborative Alignment

Arxiv

0+阅读 · 5月20日

Understanding Catastrophic Forgetting In LoRA via Mean-Field Attention Dynamics

Arxiv

0+阅读 · 5月13日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

3+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

5+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

7+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

10+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

11+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

15+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

8+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

10+阅读 · 6月17日

相关VIP内容

《对抗环境下面向特种作战的LoRa通信》最新130页

《对抗环境下面向特种作战的LoRa通信》最新130页

专知会员服务

14+阅读 · 3月30日

LoRA 变体的统一研究：分类体系、文献综述、开源代码库与实证评估

LoRA 变体的统一研究：分类体系、文献综述、开源代码库与实证评估

专知会员服务

13+阅读 · 2月2日

【ICLR2025】大型语言模型的动态低秩稀疏适应

【ICLR2025】大型语言模型的动态低秩稀疏适应

专知会员服务

14+阅读 · 2025年2月21日

【ICLR2025】RANDLORA: 全秩参数高效微调大规模模型

【ICLR2025】RANDLORA: 全秩参数高效微调大规模模型

专知会员服务

15+阅读 · 2025年2月4日

大语言模型的LoRA研究综述

大语言模型的LoRA研究综述

专知会员服务

55+阅读 · 2024年7月17日

【ACL2024】DoRA：通过动态秩分布增强参数高效微调

【ACL2024】DoRA：通过动态秩分布增强参数高效微调

专知会员服务

21+阅读 · 2024年5月28日

【ICML2024】DoRA：权重分解的低秩适应

【ICML2024】DoRA：权重分解的低秩适应

专知会员服务

20+阅读 · 2024年5月6日

【ICLR2024】MathVista:视觉背景下基础模型的数学推理评估

【ICLR2024】MathVista:视觉背景下基础模型的数学推理评估

专知会员服务

35+阅读 · 2024年1月20日

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

专知会员服务

33+阅读 · 2022年3月4日

低秩稀疏矩阵优化问题的模型与算法

专知会员服务

46+阅读 · 2020年7月29日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

相关资讯

【ICML2020】拉普拉斯正则化小样本学习，Laplacian Regularized Few-Shot Learning

【ICML2020】拉普拉斯正则化小样本学习，Laplacian Regularized Few-Shot Learning

专知

27+阅读 · 2020年7月3日

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

专知

58+阅读 · 2020年7月2日

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

机器之心

11+阅读 · 2019年6月3日

从泰勒展开来看梯度下降算法

从泰勒展开来看梯度下降算法

深度学习每日摘要

13+阅读 · 2019年4月9日

机器学习中的最优化算法总结

机器学习中的最优化算法总结

人工智能前沿讲习班

22+阅读 · 2019年3月22日

【泡泡一分钟】LeGO-LOAM：可变地形下的轻量级和地面优化激光雷达测距和测绘

【泡泡一分钟】LeGO-LOAM：可变地形下的轻量级和地面优化激光雷达测距和测绘

泡泡机器人SLAM

13+阅读 · 2019年1月14日

博客 | 机器学习中的数学基础（凸优化）

博客 | 机器学习中的数学基础（凸优化）

AI研习社

14+阅读 · 2018年12月16日

2018年深度学习优化算法最新综述

2018年深度学习优化算法最新综述

计算机视觉战队

10+阅读 · 2018年12月11日

简述多种降维算法

简述多种降维算法

算法与数学之美

11+阅读 · 2018年9月23日

精品公开课 | 随机梯度下降算法综述

精品公开课 | 随机梯度下降算法综述

七月在线实验室

13+阅读 · 2017年7月11日

相关论文

SDS-LoRA: Overcoming Anisotropic Gradient Scaling in Low-Rank Adaptation

Arxiv

0+阅读 · 6月15日

PreLort: Prefix-Nested LoRA for Federated Fine-Tuning under Rank Heterogeneity

Arxiv

0+阅读 · 6月14日

FedRot-LoRA: Mitigating Rotational Misalignment in Federated LoRA

Arxiv

0+阅读 · 6月11日

Beyond LoRA: Is Sparsity-Induced Adaptation Better?

Arxiv

0+阅读 · 6月11日

The Hidden Power of Scaling Factor in LoRA Optimization

Arxiv

0+阅读 · 6月11日

LoRA-Key: User-Centric LoRA Watermarking for Text-to-Image Diffusion Models

Arxiv

0+阅读 · 6月7日

LoRA-Key: User-Centric LoRA Watermarking for Text-to-Image Diffusion Models

Arxiv

0+阅读 · 5月28日

FLoRIST: Singular Value Thresholding for Efficient and Accurate Federated Fine-Tuning of Large Language Models

Arxiv

0+阅读 · 5月22日

Federated LoRA Fine-Tuning for LLMs via Collaborative Alignment

Arxiv

0+阅读 · 5月20日

Understanding Catastrophic Forgetting In LoRA via Mean-Field Attention Dynamics

Arxiv

0+阅读 · 5月13日

相关基金

广义Lorenz系统族解的有界性研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于Lowrank分解的谱方法和有限差分地震正演模拟

国家自然科学基金

0+阅读 · 2015年12月31日

广义低秩矩阵重构算法及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于低秩表示的鲁棒特征抽取和分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

非凸稀疏优化的恢复条件与低复杂度算法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于自适应交叉近似的低秩分解算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于稀疏理论和图Laplacian矩阵的图像去噪理论与方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

矩阵低秩稀疏分解的两步凸松弛法研究

国家自然科学基金

2+阅读 · 2015年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

某些分形集上拉普拉斯算子的谱分析及相关问题

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员