Mixture-of-Experts (MoE) has become a prominent paradigm for scaling Large Language Models (LLMs). Parameter-efficient fine-tuning methods, such as LoRA, are widely adopted to adapt pretrained MoE LLMs to downstream tasks. However, existing approaches typically assign identical LoRA ranks to all expert modules, ignoring the heterogeneous specialization of pretrained experts. This uniform allocation leads to a resource mismatch: task-relevant experts are under-provisioned, while less relevant ones receive redundant parameters. To address this, we propose DR-LoRA, a Dynamic Rank LoRA framework for fine-tuning pretrained MoE models. Specifically, DR-LoRA initializes all expert LoRA modules with a small active rank and uses an expert saliency score, which combines routing frequency and gradient-based rank importance, to identify which experts would benefit most from additional capacity. It then periodically expands the active ranks of the task-critical expert LoRA, progressively constructing a heterogeneous rank distribution tailored to the target task. Experiments on three MoE models across six tasks show that DR-LoRA consistently outperforms LoRA and other strong baselines, demonstrating that task-adaptive heterogeneous rank allocation is an effective strategy to improve active capacity utilization in MoE fine-tuning.


翻译:混合专家模型已成为扩展大型语言模型的主流范式。参数高效微调方法(如LoRA)被广泛用于将预训练混合专家大语言模型适配至下游任务。然而,现有方法通常为所有专家模块分配相同的LoRA秩,忽视了预训练专家异构化的专业特性。这种统一分配导致资源错配:任务相关专家参数不足,而非相关专家则被冗余参数占用。为此,我们提出DR-LoRA——一种面向预训练混合专家模型微调的动态秩LoRA框架。具体而言,DR-LoRA为所有专家LoRA模块初始化较小的活跃秩,并采用结合路由频率与基于梯度的秩重要性的专家显著性分数,识别哪些专家能从额外容量中获益最大。随后,该方法周期性扩展任务关键专家LoRA的活跃秩,逐步构建适配目标任务的异构秩分布。在六个任务上对三个混合专家模型的实验表明,DR-LoRA持续优于LoRA及其他强基线方法,证明任务自适应异构秩分配是提升混合专家模型微调中活跃容量利用率的有效策略。

0
下载
关闭预览

相关内容

混合专家模型简述
专知会员服务
18+阅读 · 2025年5月30日
【ICLR2025】RANDLORA: 全秩参数高效微调大规模模型
专知会员服务
15+阅读 · 2025年2月4日
混合专家模型在大模型微调领域进展
专知会员服务
48+阅读 · 2024年9月23日
大语言模型的LoRA研究综述
专知会员服务
55+阅读 · 2024年7月17日
【ACL2024】DoRA:通过动态秩分布增强参数高效微调
专知会员服务
21+阅读 · 2024年5月28日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关主题
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
5+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
混合专家模型简述
专知会员服务
18+阅读 · 2025年5月30日
【ICLR2025】RANDLORA: 全秩参数高效微调大规模模型
专知会员服务
15+阅读 · 2025年2月4日
混合专家模型在大模型微调领域进展
专知会员服务
48+阅读 · 2024年9月23日
大语言模型的LoRA研究综述
专知会员服务
55+阅读 · 2024年7月17日
【ACL2024】DoRA:通过动态秩分布增强参数高效微调
专知会员服务
21+阅读 · 2024年5月28日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员