The escalating scale of Large Language Models (LLMs) necessitates efficient adaptation techniques. Model merging has gained prominence for its efficiency and controllability. However, existing merging techniques typically serve as post-hoc refinements or focus on mitigating task interference, often failing to capture the dynamic optimization benefits of supervised fine-tuning (SFT). In this work, we propose Streaming Merging, an innovative model updating paradigm that conceptualizes merging as an iterative optimization process. Central to this paradigm is \textbf{ARM} (\textbf{A}ctivation-guided \textbf{R}otation-aware \textbf{M}erging), a strategy designed to approximate gradient descent dynamics. By treating merging coefficients as learning rates and deriving rotation vectors from activation subspaces, ARM effectively steers parameter updates along data-driven trajectories. Unlike conventional linear interpolation, ARM aligns semantic subspaces to preserve the geometric structure of high-dimensional parameter evolution. Remarkably, ARM requires only early SFT checkpoints and, through iterative merging, surpasses the fully converged SFT model. Experimental results across model scales (1.7B to 14B) and diverse domains (e.g., math, code) demonstrate that ARM can transcend converged checkpoints. Extensive experiments show that ARM provides a scalable and lightweight framework for efficient model adaptation.


翻译:大型语言模型(LLM)规模的不断扩大催生了对高效适应技术的需求。模型融合因其高效性和可控性而日益受到重视。然而,现有的融合技术通常作为事后优化手段,或侧重于缓解任务干扰,往往难以捕捉监督微调(SFT)的动态优化优势。本研究提出流式融合,一种创新的模型更新范式,将融合概念化为迭代优化过程。该范式的核心是 **ARM**(**A**ctivation-guided **R**otation-aware **M**erging,激活引导旋转感知融合),一种旨在近似梯度下降动态的策略。通过将融合系数视为学习率,并从激活子空间推导旋转向量,ARM 能有效地沿数据驱动的轨迹引导参数更新。与传统的线性插值不同,ARM 通过对齐语义子空间来保持高维参数演化的几何结构。值得注意的是,ARM 仅需早期 SFT 检查点,并通过迭代融合超越完全收敛的 SFT 模型。跨模型规模(1.7B 至 14B)和多样领域(如数学、代码)的实验结果表明,ARM 能够超越收敛的检查点。大量实验证明,ARM 为高效模型适应提供了一个可扩展且轻量级的框架。

0
下载
关闭预览

相关内容

赋能大型语言模型多领域资源挑战
专知会员服务
10+阅读 · 2025年6月10日
《大语言模型的数据合成与增强综述》
专知会员服务
43+阅读 · 2024年10月19日
《多模态大型语言模型》最新进展,详述26种现有MM-LLMs
专知会员服务
65+阅读 · 2024年1月25日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月5日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员