Ravan: Multi-Head Low-Rank Adaptation for Federated Fine-Tuning - 专知论文

会员服务 ·

0

微调 · 自适应 · LoRA · 低秩 · 边缘 ·

Ravan: Multi-Head Low-Rank Adaptation for Federated Fine-Tuning

翻译：Ravan：面向联邦微调的多头低秩自适应方法

Arian Raje,Baris Askin,Divyansh Jhunjhunwala,Gauri Joshi

Large language models (LLMs) have not yet effectively leveraged the vast amounts of edge-device data, and federated learning (FL) offers a promising paradigm to collaboratively fine-tune LLMs without transferring private edge data to the cloud. To operate within the computation and communication constraints of edge devices, recent literature on federated fine-tuning of LLMs proposes the use of low-rank adaptation (LoRA) and similar parameter-efficient methods. However, LoRA-based methods suffer from accuracy degradation in FL settings, primarily because of data and computational heterogeneity across clients. We propose Ravan, an adaptive multi-head LoRA method that balances parameter efficiency and model expressivity by reparameterizing the weight updates as the sum of multiple LoRA heads $s_i\textbf{B}_i\textbf{H}_i\textbf{A}_i$ in which only the core matrices $\textbf{H}_i$ and their lightweight scaling factors $s_i$ are trained. These trainable scaling factors let the optimization focus on the most useful heads, recovering a higher-rank approximation of the full update without increasing the number of communicated parameters since clients upload $s_i\textbf{H}_i$ directly. Experiments on vision and language benchmarks show that Ravan improves test accuracy by $2-8\%$ over prior parameter-efficient baselines, making it a robust and scalable solution for federated fine-tuning of LLMs.

翻译：大型语言模型（LLMs）尚未有效利用海量边缘设备数据，而联邦学习（FL）为在不将私有边缘数据传输至云端的情况下协同微调LLMs提供了可行范式。为适应边缘设备的计算与通信限制，近期关于LLMs联邦微调的研究提出采用低秩自适应（LoRA）及类似参数高效方法。然而，基于LoRA的方法在联邦学习场景中面临精度下降问题，主要源于客户端间的数据与计算异构性。本文提出Ravan——一种自适应多头LoRA方法，通过将权重更新重参数化为多个LoRA头之和 $s_i\textbf{B}_i\textbf{H}_i\textbf{A}_i$（其中仅核心矩阵 $\textbf{H}_i$ 及其轻量级缩放因子 $s_i$ 参与训练），在参数效率与模型表达能力间取得平衡。这些可训练的缩放因子使优化过程聚焦于最有效的头部，在不增加通信参数量的情况下（客户端直接上传 $s_i\textbf{H}_i$）恢复更高秩的完整更新近似。在视觉与语言基准测试上的实验表明，Ravan相较于现有参数高效基线方法提升测试精度 $2-8\%$，为LLMs的联邦微调提供了鲁棒且可扩展的解决方案。

0

相关内容

LoRA 变体的统一研究：分类体系、文献综述、开源代码库与实证评估

LoRA 变体的统一研究：分类体系、文献综述、开源代码库与实证评估

专知会员服务

13+阅读 · 2月2日

【ICML2025】用于持续多模态指令微调的动态课程化LoRA专家混合机制

【ICML2025】用于持续多模态指令微调的动态课程化LoRA专家混合机制

专知会员服务

12+阅读 · 2025年6月17日

【ICLR2025】大型语言模型的动态低秩稀疏适应

【ICLR2025】大型语言模型的动态低秩稀疏适应

专知会员服务

14+阅读 · 2025年2月21日

TransMLA：多头潜在注意力（MLA）即为所需

TransMLA：多头潜在注意力（MLA）即为所需

专知会员服务

23+阅读 · 2025年2月13日

【ICLR2025】RANDLORA: 全秩参数高效微调大规模模型

【ICLR2025】RANDLORA: 全秩参数高效微调大规模模型

专知会员服务

15+阅读 · 2025年2月4日

【ACL2024】DoRA：通过动态秩分布增强参数高效微调

【ACL2024】DoRA：通过动态秩分布增强参数高效微调

专知会员服务

7+阅读 · 2024年5月28日

【ICML2024】DoRA：权重分解的低秩适应

【ICML2024】DoRA：权重分解的低秩适应

专知会员服务

20+阅读 · 2024年5月6日

参数高效微调方法有哪些？岭大等最新《预训练语言模型的参数高效微调》综述，

参数高效微调方法有哪些？岭大等最新《预训练语言模型的参数高效微调》综述，

专知会员服务

70+阅读 · 2023年12月21日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

大模型如何领域适配？埃默里大学等首篇《大型语言模型领域专业化》综述，42页pdf详述大模型领域垂直化技术

大模型如何领域适配？埃默里大学等首篇《大型语言模型领域专业化》综述，42页pdf详述大模型领域垂直化技术

专知会员服务

220+阅读 · 2023年6月8日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

26+阅读 · 2023年4月4日

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

专知

11+阅读 · 2022年12月1日

【2022新书】联邦学习：方法和应用的综合概述，531页pdf

【2022新书】联邦学习：方法和应用的综合概述，531页pdf

专知

28+阅读 · 2022年7月14日

最新《联邦学习Federated Learning》报告，47页ppt

最新《联邦学习Federated Learning》报告，47页ppt

专知

48+阅读 · 2020年12月2日

【深度度量学习系列】Triplet-loss原理与应用

【深度度量学习系列】Triplet-loss原理与应用

AINLP

61+阅读 · 2020年10月7日

【联邦学习】联邦学习的研究及应用、联邦学习的多种可能性

【联邦学习】联邦学习的研究及应用、联邦学习的多种可能性

产业智能官

30+阅读 · 2019年5月24日

联邦机器学习-概念与应用，【附19页论文下载】

联邦机器学习-概念与应用，【附19页论文下载】

专知

80+阅读 · 2019年3月9日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

用Rasa NLU构建自己的中文NLU系统

用Rasa NLU构建自己的中文NLU系统

待字闺中

18+阅读 · 2017年9月18日

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

广义低秩矩阵重构算法及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

稀疏表达下社会化正则方法与低秩分解推荐模型的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于广义输出调节的非线性多个体系统的协调控制与优化

国家自然科学基金

1+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于自适应采样和变复杂度近似的多学科稳健性设计优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于Lotka-Volterra种群模型和广义效益的公共交通出行结构优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于自适应交叉近似的低秩分解算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

矩阵低秩稀疏分解的两步凸松弛法研究

国家自然科学基金

2+阅读 · 2015年12月31日

压缩感知和稀疏优化中的非凸优化算法设计

国家自然科学基金

2+阅读 · 2014年12月31日

Heterogeneous Federated Fine-Tuning with Parallel One-Rank Adaptation

Arxiv

0+阅读 · 2月18日

Adaptive Rank Allocation for Federated Parameter-Efficient Fine-Tuning of Language Models

Arxiv

0+阅读 · 2月18日

Low-Latency Federated Fine-Tuning for Large Language Models Over Wireless Networks

Arxiv

0+阅读 · 2月16日

tLoRA: Efficient Multi-LoRA Training with Elastic Shared Super-Models

Arxiv

0+阅读 · 2月13日

SplitCom: Communication-efficient Split Federated Fine-tuning of LLMs via Temporal Compression

Arxiv

0+阅读 · 2月12日

LOREN: Low Rank-Based Code-Rate Adaptation in Neural Receivers

Arxiv

0+阅读 · 2月11日

SplitCom: Communication-efficient Split Federated Fine-tuning of LLMs via Temporal Compression

Arxiv

0+阅读 · 2月11日

ODELoRA: Training Low-Rank Adaptation by Solving Ordinary Differential Equations

Arxiv

0+阅读 · 2月7日

Low-latency Federated LLM Fine-tuning Over Wireless Networks

Arxiv

0+阅读 · 2月1日

FedLoDrop: Federated LoRA with Dropout for Generalized LLM Fine-tuning

Arxiv

0+阅读 · 1月31日

VIP会员

文章信息

相关主题

最新内容

《无人机对海面作战影响评估》

《无人机对海面作战影响评估》

专知会员服务

7+阅读 · 7月21日

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

专知会员服务

8+阅读 · 7月21日

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

专知会员服务

2+阅读 · 7月21日

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

专知会员服务

3+阅读 · 7月21日

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

5+阅读 · 7月21日

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

5+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

7+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

6+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

8+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

6+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

8+阅读 · 7月20日

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

专知会员服务

8+阅读 · 7月20日

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

15+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

7+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

10+阅读 · 7月19日

相关VIP内容

LoRA 变体的统一研究：分类体系、文献综述、开源代码库与实证评估

LoRA 变体的统一研究：分类体系、文献综述、开源代码库与实证评估

专知会员服务

13+阅读 · 2月2日

【ICML2025】用于持续多模态指令微调的动态课程化LoRA专家混合机制

【ICML2025】用于持续多模态指令微调的动态课程化LoRA专家混合机制

专知会员服务

12+阅读 · 2025年6月17日

【ICLR2025】大型语言模型的动态低秩稀疏适应

【ICLR2025】大型语言模型的动态低秩稀疏适应

专知会员服务

14+阅读 · 2025年2月21日

TransMLA：多头潜在注意力（MLA）即为所需

TransMLA：多头潜在注意力（MLA）即为所需

专知会员服务

23+阅读 · 2025年2月13日

【ICLR2025】RANDLORA: 全秩参数高效微调大规模模型

【ICLR2025】RANDLORA: 全秩参数高效微调大规模模型

专知会员服务

15+阅读 · 2025年2月4日

【ACL2024】DoRA：通过动态秩分布增强参数高效微调

【ACL2024】DoRA：通过动态秩分布增强参数高效微调

专知会员服务

7+阅读 · 2024年5月28日

【ICML2024】DoRA：权重分解的低秩适应

【ICML2024】DoRA：权重分解的低秩适应

专知会员服务

20+阅读 · 2024年5月6日

参数高效微调方法有哪些？岭大等最新《预训练语言模型的参数高效微调》综述，

参数高效微调方法有哪些？岭大等最新《预训练语言模型的参数高效微调》综述，

专知会员服务

70+阅读 · 2023年12月21日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

大模型如何领域适配？埃默里大学等首篇《大型语言模型领域专业化》综述，42页pdf详述大模型领域垂直化技术

大模型如何领域适配？埃默里大学等首篇《大型语言模型领域专业化》综述，42页pdf详述大模型领域垂直化技术

专知会员服务

220+阅读 · 2023年6月8日

热门VIP内容

开通专知VIP会员享更多权益服务

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

《无人机对海面作战影响评估》

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

26+阅读 · 2023年4月4日

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

专知

11+阅读 · 2022年12月1日

【2022新书】联邦学习：方法和应用的综合概述，531页pdf

【2022新书】联邦学习：方法和应用的综合概述，531页pdf

专知

28+阅读 · 2022年7月14日

最新《联邦学习Federated Learning》报告，47页ppt

最新《联邦学习Federated Learning》报告，47页ppt

专知

48+阅读 · 2020年12月2日

【深度度量学习系列】Triplet-loss原理与应用

【深度度量学习系列】Triplet-loss原理与应用

AINLP

61+阅读 · 2020年10月7日

【联邦学习】联邦学习的研究及应用、联邦学习的多种可能性

【联邦学习】联邦学习的研究及应用、联邦学习的多种可能性

产业智能官

30+阅读 · 2019年5月24日

联邦机器学习-概念与应用，【附19页论文下载】

联邦机器学习-概念与应用，【附19页论文下载】

专知

80+阅读 · 2019年3月9日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

用Rasa NLU构建自己的中文NLU系统

用Rasa NLU构建自己的中文NLU系统

待字闺中

18+阅读 · 2017年9月18日

相关论文

Heterogeneous Federated Fine-Tuning with Parallel One-Rank Adaptation

Arxiv

0+阅读 · 2月18日

Adaptive Rank Allocation for Federated Parameter-Efficient Fine-Tuning of Language Models

Arxiv

0+阅读 · 2月18日

Low-Latency Federated Fine-Tuning for Large Language Models Over Wireless Networks

Arxiv

0+阅读 · 2月16日

tLoRA: Efficient Multi-LoRA Training with Elastic Shared Super-Models

Arxiv

0+阅读 · 2月13日

SplitCom: Communication-efficient Split Federated Fine-tuning of LLMs via Temporal Compression

Arxiv

0+阅读 · 2月12日

LOREN: Low Rank-Based Code-Rate Adaptation in Neural Receivers

Arxiv

0+阅读 · 2月11日

SplitCom: Communication-efficient Split Federated Fine-tuning of LLMs via Temporal Compression

Arxiv

0+阅读 · 2月11日

ODELoRA: Training Low-Rank Adaptation by Solving Ordinary Differential Equations

Arxiv

0+阅读 · 2月7日

Low-latency Federated LLM Fine-tuning Over Wireless Networks

Arxiv

0+阅读 · 2月1日

FedLoDrop: Federated LoRA with Dropout for Generalized LLM Fine-tuning

Arxiv

0+阅读 · 1月31日

相关基金

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

广义低秩矩阵重构算法及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

稀疏表达下社会化正则方法与低秩分解推荐模型的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于广义输出调节的非线性多个体系统的协调控制与优化

国家自然科学基金

1+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于自适应采样和变复杂度近似的多学科稳健性设计优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于Lotka-Volterra种群模型和广义效益的公共交通出行结构优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于自适应交叉近似的低秩分解算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

矩阵低秩稀疏分解的两步凸松弛法研究

国家自然科学基金

2+阅读 · 2015年12月31日

压缩感知和稀疏优化中的非凸优化算法设计

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员