DR-LoRA: Dynamic Rank LoRA for Fine-Tuning Mixture-of-Experts Models - 专知论文

会员服务 ·

0

DR-LoRA: Dynamic Rank LoRA for Fine-Tuning Mixture-of-Experts Models

翻译：DR-LoRA：面向混合专家模型微调的动态秩LoRA框架

Guanzhi Deng,Bo Li,Ronghao Chen,Xiujin Liu,Zhuo Han,Huacan Wang,Lijie Wen,Linqi Song

Mixture-of-Experts (MoE) has become a prominent paradigm for scaling Large Language Models (LLMs). Parameter-efficient fine-tuning methods, such as LoRA, are widely adopted to adapt pretrained MoE LLMs to downstream tasks. However, existing approaches typically assign identical LoRA ranks to all expert modules, ignoring the heterogeneous specialization of pretrained experts. This uniform allocation leads to a resource mismatch: task-relevant experts are under-provisioned, while less relevant ones receive redundant parameters. To address this, we propose DR-LoRA, a Dynamic Rank LoRA framework for fine-tuning pretrained MoE models. Specifically, DR-LoRA initializes all expert LoRA modules with a small active rank and uses an expert saliency score, which combines routing frequency and gradient-based rank importance, to identify which experts would benefit most from additional capacity. It then periodically expands the active ranks of the task-critical expert LoRA, progressively constructing a heterogeneous rank distribution tailored to the target task. Experiments on three MoE models across six tasks show that DR-LoRA consistently outperforms LoRA and other strong baselines, demonstrating that task-adaptive heterogeneous rank allocation is an effective strategy to improve active capacity utilization in MoE fine-tuning.

翻译：混合专家模型已成为扩展大型语言模型的主流范式。参数高效微调方法（如LoRA）被广泛用于将预训练混合专家大语言模型适配至下游任务。然而，现有方法通常为所有专家模块分配相同的LoRA秩，忽视了预训练专家异构化的专业特性。这种统一分配导致资源错配：任务相关专家参数不足，而非相关专家则被冗余参数占用。为此，我们提出DR-LoRA——一种面向预训练混合专家模型微调的动态秩LoRA框架。具体而言，DR-LoRA为所有专家LoRA模块初始化较小的活跃秩，并采用结合路由频率与基于梯度的秩重要性的专家显著性分数，识别哪些专家能从额外容量中获益最大。随后，该方法周期性扩展任务关键专家LoRA的活跃秩，逐步构建适配目标任务的异构秩分布。在六个任务上对三个混合专家模型的实验表明，DR-LoRA持续优于LoRA及其他强基线方法，证明任务自适应异构秩分配是提升混合专家模型微调中活跃容量利用率的有效策略。

0

相关内容

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

专知会员服务

12+阅读 · 5月31日

稀疏混合专家模型 (SMoE) 的崛起：从算法基础、去中心化架构到垂直领域应用的综述

稀疏混合专家模型 (SMoE) 的崛起：从算法基础、去中心化架构到垂直领域应用的综述

专知会员服务

17+阅读 · 2月12日

LoRA 变体的统一研究：分类体系、文献综述、开源代码库与实证评估

LoRA 变体的统一研究：分类体系、文献综述、开源代码库与实证评估

专知会员服务

13+阅读 · 2月2日

【AAAI2026】专家数量何为最优？面向混合专家模型的语义专业化优化研究

【AAAI2026】专家数量何为最优？面向混合专家模型的语义专业化优化研究

专知会员服务

15+阅读 · 2025年12月28日

【ICML2025】用于持续多模态指令微调的动态课程化LoRA专家混合机制

【ICML2025】用于持续多模态指令微调的动态课程化LoRA专家混合机制

专知会员服务

12+阅读 · 2025年6月17日

混合专家模型简述

混合专家模型简述

专知会员服务

18+阅读 · 2025年5月30日

【ICLR2025】RANDLORA: 全秩参数高效微调大规模模型

【ICLR2025】RANDLORA: 全秩参数高效微调大规模模型

专知会员服务

15+阅读 · 2025年2月4日

混合专家模型在大模型微调领域进展

混合专家模型在大模型微调领域进展

专知会员服务

48+阅读 · 2024年9月23日

大语言模型的LoRA研究综述

大语言模型的LoRA研究综述

专知会员服务

55+阅读 · 2024年7月17日

【ACL2024】DoRA：通过动态秩分布增强参数高效微调

【ACL2024】DoRA：通过动态秩分布增强参数高效微调

专知会员服务

21+阅读 · 2024年5月28日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

专知

14+阅读 · 2022年5月31日

【AI+军事】《AI/ML在支持混合军事行动中情报和目标定位方面的优势和挑战》加拿大国防研究和发展部

【AI+军事】《AI/ML在支持混合军事行动中情报和目标定位方面的优势和挑战》加拿大国防研究和发展部

专知

104+阅读 · 2022年4月7日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

AINLP

11+阅读 · 2020年7月7日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

泡泡机器人SLAM

14+阅读 · 2019年9月5日

KDD 2019 | 自动探索特征组合，第四范式提出新方法AutoCross

KDD 2019 | 自动探索特征组合，第四范式提出新方法AutoCross

机器之心

18+阅读 · 2019年6月12日

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

机器之心

11+阅读 · 2019年6月3日

Dropout到底在干啥？看完这篇文章，你就知道了

Dropout到底在干啥？看完这篇文章，你就知道了

专知

25+阅读 · 2019年5月2日

广义Lorenz系统族解的有界性研究

国家自然科学基金

0+阅读 · 2015年12月31日

广义混杂系统的降阶分析与应用

国家自然科学基金

1+阅读 · 2015年12月31日

混沌时间序列Volterra建模及其在语音信号处理中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于Lotka-Volterra种群模型和广义效益的公共交通出行结构优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

混合分布模型中序性质和维修策略的一些研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于稀疏理论和图Laplacian矩阵的图像去噪理论与方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

混沌系统全局吸引集的新结果及对混沌控制与同步的应用

国家自然科学基金

0+阅读 · 2014年12月31日

短波认知ALE系统中基于深度学习-GP混合模型的多维谱预测方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

超线性增长条件下的混杂型随机时滞微分方程

国家自然科学基金

0+阅读 · 2014年12月31日

非线性混合效应模型的最优与稳健设计

国家自然科学基金

0+阅读 · 2014年12月31日

RadLite: Multi-Task LoRA Fine-Tuning of Small Language Models for CPU-Deployable Radiology AI

RadLite: Multi-Task LoRA Fine-Tuning of Small Language Models for CPU-Deployable Radiology AI

Arxiv

0+阅读 · 5月4日

TeRA: Vector-based Random Tensor Network for High-Rank Adaptation of Large Language Models

Arxiv

0+阅读 · 4月14日

ALTO: Adaptive LoRA Tuning and Orchestration for Heterogeneous LoRA Training Workloads

Arxiv

0+阅读 · 4月10日

A Little Rank Goes a Long Way: Random Scaffolds with LoRA Adapters Are All You Need

Arxiv

0+阅读 · 4月9日

ALTO: Adaptive LoRA Tuning and Orchestration for Heterogeneous LoRA Training Workloads

Arxiv

0+阅读 · 4月7日

TuneShift-KD: Knowledge Distillation and Transfer for Fine-tuned Models

Arxiv

0+阅读 · 3月25日

Parameter-Efficient Fine-Tuning for Medical Text Summarization: A Comparative Study of Lora, Prompt Tuning, and Full Fine-Tuning

Arxiv

0+阅读 · 3月23日

RAMP: Reinforcement Adaptive Mixed Precision Quantization for Efficient On Device LLM Inference

Arxiv

0+阅读 · 3月18日

HaLoRA: Hardware-aware Low-Rank Adaptation for Large Language Models Based on Hybrid Compute-in-Memory Architecture

Arxiv

0+阅读 · 3月9日

A Replicate-and-Quantize Strategy for Plug-and-Play Load Balancing of Sparse Mixture-of-Experts LLMs

Arxiv

0+阅读 · 2月23日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

4+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

5+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

6+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

6+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

22+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

专知会员服务

12+阅读 · 5月31日

稀疏混合专家模型 (SMoE) 的崛起：从算法基础、去中心化架构到垂直领域应用的综述

稀疏混合专家模型 (SMoE) 的崛起：从算法基础、去中心化架构到垂直领域应用的综述

专知会员服务

17+阅读 · 2月12日

LoRA 变体的统一研究：分类体系、文献综述、开源代码库与实证评估

LoRA 变体的统一研究：分类体系、文献综述、开源代码库与实证评估

专知会员服务

13+阅读 · 2月2日

【AAAI2026】专家数量何为最优？面向混合专家模型的语义专业化优化研究

【AAAI2026】专家数量何为最优？面向混合专家模型的语义专业化优化研究

专知会员服务

15+阅读 · 2025年12月28日

【ICML2025】用于持续多模态指令微调的动态课程化LoRA专家混合机制

【ICML2025】用于持续多模态指令微调的动态课程化LoRA专家混合机制

专知会员服务

12+阅读 · 2025年6月17日

混合专家模型简述

混合专家模型简述

专知会员服务

18+阅读 · 2025年5月30日

【ICLR2025】RANDLORA: 全秩参数高效微调大规模模型

【ICLR2025】RANDLORA: 全秩参数高效微调大规模模型

专知会员服务

15+阅读 · 2025年2月4日

混合专家模型在大模型微调领域进展

混合专家模型在大模型微调领域进展

专知会员服务

48+阅读 · 2024年9月23日

大语言模型的LoRA研究综述

大语言模型的LoRA研究综述

专知会员服务

55+阅读 · 2024年7月17日

【ACL2024】DoRA：通过动态秩分布增强参数高效微调

【ACL2024】DoRA：通过动态秩分布增强参数高效微调

专知会员服务

21+阅读 · 2024年5月28日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

专知

14+阅读 · 2022年5月31日

【AI+军事】《AI/ML在支持混合军事行动中情报和目标定位方面的优势和挑战》加拿大国防研究和发展部

【AI+军事】《AI/ML在支持混合军事行动中情报和目标定位方面的优势和挑战》加拿大国防研究和发展部

专知

104+阅读 · 2022年4月7日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

AINLP

11+阅读 · 2020年7月7日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

泡泡机器人SLAM

14+阅读 · 2019年9月5日

KDD 2019 | 自动探索特征组合，第四范式提出新方法AutoCross

KDD 2019 | 自动探索特征组合，第四范式提出新方法AutoCross

机器之心

18+阅读 · 2019年6月12日

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

机器之心

11+阅读 · 2019年6月3日

Dropout到底在干啥？看完这篇文章，你就知道了

Dropout到底在干啥？看完这篇文章，你就知道了

专知

25+阅读 · 2019年5月2日

相关论文

RadLite: Multi-Task LoRA Fine-Tuning of Small Language Models for CPU-Deployable Radiology AI

RadLite: Multi-Task LoRA Fine-Tuning of Small Language Models for CPU-Deployable Radiology AI

Arxiv

0+阅读 · 5月4日

TeRA: Vector-based Random Tensor Network for High-Rank Adaptation of Large Language Models

Arxiv

0+阅读 · 4月14日

ALTO: Adaptive LoRA Tuning and Orchestration for Heterogeneous LoRA Training Workloads

Arxiv

0+阅读 · 4月10日

A Little Rank Goes a Long Way: Random Scaffolds with LoRA Adapters Are All You Need

Arxiv

0+阅读 · 4月9日

ALTO: Adaptive LoRA Tuning and Orchestration for Heterogeneous LoRA Training Workloads

Arxiv

0+阅读 · 4月7日

TuneShift-KD: Knowledge Distillation and Transfer for Fine-tuned Models

Arxiv

0+阅读 · 3月25日

Parameter-Efficient Fine-Tuning for Medical Text Summarization: A Comparative Study of Lora, Prompt Tuning, and Full Fine-Tuning

Arxiv

0+阅读 · 3月23日

RAMP: Reinforcement Adaptive Mixed Precision Quantization for Efficient On Device LLM Inference

Arxiv

0+阅读 · 3月18日

HaLoRA: Hardware-aware Low-Rank Adaptation for Large Language Models Based on Hybrid Compute-in-Memory Architecture

Arxiv

0+阅读 · 3月9日

A Replicate-and-Quantize Strategy for Plug-and-Play Load Balancing of Sparse Mixture-of-Experts LLMs

Arxiv

0+阅读 · 2月23日

相关基金

广义Lorenz系统族解的有界性研究

国家自然科学基金

0+阅读 · 2015年12月31日

广义混杂系统的降阶分析与应用

国家自然科学基金

1+阅读 · 2015年12月31日

混沌时间序列Volterra建模及其在语音信号处理中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于Lotka-Volterra种群模型和广义效益的公共交通出行结构优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

混合分布模型中序性质和维修策略的一些研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于稀疏理论和图Laplacian矩阵的图像去噪理论与方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

混沌系统全局吸引集的新结果及对混沌控制与同步的应用

国家自然科学基金

0+阅读 · 2014年12月31日

短波认知ALE系统中基于深度学习-GP混合模型的多维谱预测方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

超线性增长条件下的混杂型随机时滞微分方程

国家自然科学基金

0+阅读 · 2014年12月31日

非线性混合效应模型的最优与稳健设计

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员