Efficient optimization is essential for training large language models. Although intra-layer selective updates have been explored, a general mechanism that enables fine-grained control while ensuring convergence guarantees is still lacking. To bridge this gap, we propose \textbf{MGUP}, a novel mechanism for selective updates. \textbf{MGUP} augments standard momentum-based optimizers by applying larger step-sizes to a selected fixed proportion of parameters in each iteration, while applying smaller, non-zero step-sizes to the rest. As a nearly {plug-and-play} module, \textbf{MGUP} seamlessly integrates with optimizers such as AdamW, Lion, and Muon. This yields powerful variants such as \textbf{MGUP-AdamW}, \textbf{MGUP-Lion}, and \textbf{MGUP-Muon}. Under standard assumptions, we provide theoretical convergence guarantees for \textbf{MGUP-AdamW} (without weight decay) in stochastic optimization. Extensive experiments across diverse tasks, including MAE pretraining, LLM pretraining, and downstream fine-tuning, demonstrate that our \textbf{MGUP}-enhanced optimizers achieve superior or more stable performance compared to their original base optimizers. We offer a principled, versatile, and theoretically grounded strategy for efficient intra-layer selective updates, accelerating and stabilizing the training of large-scale models. The code is publicly available at https://github.com/MaeChd/MGUP.


翻译:高效优化对于训练大型语言模型至关重要。尽管层内选择性更新已被探索,但缺乏一种既能实现细粒度控制又能确保收敛保证的通用机制。为弥补这一空白,我们提出 \textbf{MGUP},一种新型选择性更新机制。\textbf{MGUP} 通过为每次迭代中选定固定比例的参数施加较大步长,而对其余参数施以较小但非零的步长,从而增强标准动量优化器。作为一种近乎即插即用的模块,\textbf{MGUP} 可无缝集成至 AdamW、Lion 和 Muon 等优化器中,由此产生如 \textbf{MGUP-AdamW}、\textbf{MGUP-Lion} 和 \textbf{MGUP-Muon} 等强大变体。在标准假设下,我们为随机优化中的 \textbf{MGUP-AdamW}(无权重衰减)提供了理论收敛保证。在包括 MAE 预训练、LLM 预训练及下游微调在内的多样化任务上的广泛实验表明,与原始基础优化器相比,经 \textbf{MGUP} 增强的优化器实现了更优或更稳定的性能。我们提供了一种有原则性、通用且具有理论基础的策略,用于高效的层内选择性更新,从而加速并稳定大规模模型的训练。代码已公开于 https://github.com/MaeChd/MGUP。

0
下载
关闭预览

相关内容

多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
专知会员服务
20+阅读 · 2021年5月4日
从动力学角度看优化算法:GAN的第三个阶段
PaperWeekly
11+阅读 · 2019年5月13日
深度学习中Attention Mechanism详细介绍:原理、分类及应用
深度学习与NLP
10+阅读 · 2019年2月18日
自定义损失函数Gradient Boosting
AI研习社
14+阅读 · 2018年10月16日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
1+阅读 · 今天15:03
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
1+阅读 · 今天14:31
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
相关VIP内容
多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
专知会员服务
20+阅读 · 2021年5月4日
相关基金
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员