Beyond End-to-End: Dynamic Chain Optimization for Private LLM Adaptation on the Edge - 专知论文

会员服务 ·

0

适配 · 端到端 · 边缘 · 模型适配 · 语言模型 ·

Beyond End-to-End: Dynamic Chain Optimization for Private LLM Adaptation on the Edge

翻译：超越端到端：面向边缘私有大语言模型适配的动态链式优化

Yebo Wu,Jingguang Li,Chunlin Tian,Kahou Tam,Zhijiang Guo,Li Li

from arxiv, Accepted by ACL 2026

Federated fine-tuning enables privacy-preserving LLM adaptation but faces a critical bottleneck: the disparity between LLMs' high memory demands and edge devices' limited capacity. To break the memory barrier, we propose Chain Federated Fine-Tuning (ChainFed), an innovative paradigm that forgoes end-to-end updates in favor of a sequential, layer-by-layer manner. It first trains the initial adapter to convergence, freezes its weights, and then proceeds to the next. This iterative train-and-freeze process forms an optimization chain, gradually enhancing the model's task-specific proficiency. ChainFed further integrates three core techniques: 1) Dynamic Layer Co-Tuning to bridge semantic gaps between sequentially tuned layers and facilitate information flow; 2) Globally Perceptive Optimization to endow each adapter with foresight beyond its local objective; 3) Function-Oriented Adaptive Tuning to automatically identify the optimal fine-tuning starting point. Extensive experiments on multiple benchmarks demonstrate the superiority of ChainFed over existing methods, boosting average accuracy by up to 46.46\%.

翻译：联邦微调在实现隐私保护的大语言模型适配方面潜力巨大，却面临关键瓶颈：大语言模型的高内存需求与边缘设备有限容量之间的显著差距。为突破内存限制，我们提出链式联邦微调框架ChainFed——一种摒弃端到端更新模式、采用逐层顺序更新的创新范式。该框架首先训练初始适配器至收敛，冻结其权重后再依次训练后续适配器。这种迭代式"训练-冻结"过程形成优化链，逐步提升模型的任务专项能力。ChainFed进一步整合三大核心技术：1）动态层协同调优，弥合顺序调优层间的语义鸿沟并促进信息流动；2）全局感知优化，赋予每个适配器超越局部目标的全局视野；3）功能导向自适应调优，自动识别最优微调起始点。在多个基准测试上的大量实验表明，ChainFed相较现有方法具有显著优势，平均准确率最高可提升46.46%。

0

相关内容

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

专知会员服务

29+阅读 · 4月6日

从静态模板到动态运行时图：大语言模型智能体（LLM Agents）工作流优化综述

从静态模板到动态运行时图：大语言模型智能体（LLM Agents）工作流优化综述

专知会员服务

23+阅读 · 3月30日

综述：面向移动端大语言模型的隐私与安全

综述：面向移动端大语言模型的隐私与安全

专知会员服务

19+阅读 · 2025年9月7日

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

专知会员服务

48+阅读 · 2025年4月12日

【AAAI2025】偏好导向的监督微调：优先选择目标模型而非对齐的大语言模型

【AAAI2025】偏好导向的监督微调：优先选择目标模型而非对齐的大语言模型

专知会员服务

23+阅读 · 2024年12月18日

边缘大型语言模型综述：设计、执行与应用

边缘大型语言模型综述：设计、执行与应用

专知会员服务

41+阅读 · 2024年10月21日

移动边缘智能与大型语言模型综述

移动边缘智能与大型语言模型综述

专知会员服务

42+阅读 · 2024年7月31日

Llama-3-SynE：实现有效且高效的大语言模型持续预训练

Llama-3-SynE：实现有效且高效的大语言模型持续预训练

专知会员服务

36+阅读 · 2024年7月30日

移动边缘网络中联邦学习效率优化综述

移动边缘网络中联邦学习效率优化综述

专知会员服务

50+阅读 · 2022年7月9日

面向端边云协同架构的区块链技术综述

面向端边云协同架构的区块链技术综述

专知会员服务

49+阅读 · 2021年12月24日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

《“边缘计算+”技术白皮书》，82页pdf

《“边缘计算+”技术白皮书》，82页pdf

专知

11+阅读 · 2022年8月28日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

19+阅读 · 2020年8月31日

前端微服务在字节跳动的落地之路

前端微服务在字节跳动的落地之路

前端之巅

41+阅读 · 2019年9月19日

结合符号主义和深度学习，DeepMind提出新型端到端神经网络架构 PrediNet

结合符号主义和深度学习，DeepMind提出新型端到端神经网络架构 PrediNet

机器之心

12+阅读 · 2019年5月29日

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

产业智能官

16+阅读 · 2019年4月22日

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

10+阅读 · 2019年2月18日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

边缘计算：万物互联时代新型计算模型

边缘计算：万物互联时代新型计算模型

计算机研究与发展

15+阅读 · 2017年5月19日

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

车联网环境下基于路段负载链估测与优化的动态交通诱导方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

大数据背景下面向操作模式的约简算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于智慧的下一代网络资源优化机制研究

国家自然科学基金

2+阅读 · 2015年12月31日

复杂网络上数据传输博弈的合作性优化与控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

外包与云计算情境下IT业务匹配研究：适应性结构化理论视角

国家自然科学基金

2+阅读 · 2014年12月31日

A Survey on Split Learning for LLM Fine-Tuning: Models, Systems, and Privacy Optimizations

Arxiv

0+阅读 · 4月27日

Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey

Arxiv

1+阅读 · 4月21日

Strengthening Human-Centric Chain-of-Thought Reasoning Integrity in LLMs via a Structured Prompt Framework

Arxiv

0+阅读 · 4月6日

Brainstacks: Cross-Domain Cognitive Capabilities via Frozen MoE-LoRA Stacks for Continual LLM Learning

Arxiv

0+阅读 · 4月1日

NextQuill: Causal Preference Modeling for Enhancing LLM Personalization

Arxiv

0+阅读 · 3月30日

A Pipelined Collaborative Speculative Decoding Framework for Efficient Edge-Cloud LLM Inference

Arxiv

0+阅读 · 3月27日

LLM Inference at the Edge: Mobile, NPU, and GPU Performance Efficiency Trade-offs Under Sustained Load

Arxiv

0+阅读 · 3月24日

A Pipelined Collaborative Speculative Decoding Framework for Efficient Edge-Cloud LLM Inference

Arxiv

0+阅读 · 3月19日

QuantFL: Sustainable Federated Learning for Edge IoT via Pre-Trained Model Quantisation

QuantFL: Sustainable Federated Learning for Edge IoT via Pre-Trained Model Quantisation

Arxiv

0+阅读 · 3月18日

A Systematic Evaluation of On-Device LLMs: Quantization, Performance, and Resources

Arxiv

0+阅读 · 3月16日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

2+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

4+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

7+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

4+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

6+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

5+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

3+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

8+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

6+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

9+阅读 · 6月22日

相关VIP内容

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

专知会员服务

29+阅读 · 4月6日

从静态模板到动态运行时图：大语言模型智能体（LLM Agents）工作流优化综述

从静态模板到动态运行时图：大语言模型智能体（LLM Agents）工作流优化综述

专知会员服务

23+阅读 · 3月30日

综述：面向移动端大语言模型的隐私与安全

综述：面向移动端大语言模型的隐私与安全

专知会员服务

19+阅读 · 2025年9月7日

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

专知会员服务

48+阅读 · 2025年4月12日

【AAAI2025】偏好导向的监督微调：优先选择目标模型而非对齐的大语言模型

【AAAI2025】偏好导向的监督微调：优先选择目标模型而非对齐的大语言模型

专知会员服务

23+阅读 · 2024年12月18日

边缘大型语言模型综述：设计、执行与应用

边缘大型语言模型综述：设计、执行与应用

专知会员服务

41+阅读 · 2024年10月21日

移动边缘智能与大型语言模型综述

移动边缘智能与大型语言模型综述

专知会员服务

42+阅读 · 2024年7月31日

Llama-3-SynE：实现有效且高效的大语言模型持续预训练

Llama-3-SynE：实现有效且高效的大语言模型持续预训练

专知会员服务

36+阅读 · 2024年7月30日

移动边缘网络中联邦学习效率优化综述

移动边缘网络中联邦学习效率优化综述

专知会员服务

50+阅读 · 2022年7月9日

面向端边云协同架构的区块链技术综述

面向端边云协同架构的区块链技术综述

专知会员服务

49+阅读 · 2021年12月24日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

《“边缘计算+”技术白皮书》，82页pdf

《“边缘计算+”技术白皮书》，82页pdf

专知

11+阅读 · 2022年8月28日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

19+阅读 · 2020年8月31日

前端微服务在字节跳动的落地之路

前端微服务在字节跳动的落地之路

前端之巅

41+阅读 · 2019年9月19日

结合符号主义和深度学习，DeepMind提出新型端到端神经网络架构 PrediNet

结合符号主义和深度学习，DeepMind提出新型端到端神经网络架构 PrediNet

机器之心

12+阅读 · 2019年5月29日

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

产业智能官

16+阅读 · 2019年4月22日

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

10+阅读 · 2019年2月18日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

边缘计算：万物互联时代新型计算模型

边缘计算：万物互联时代新型计算模型

计算机研究与发展

15+阅读 · 2017年5月19日

相关论文

A Survey on Split Learning for LLM Fine-Tuning: Models, Systems, and Privacy Optimizations

Arxiv

0+阅读 · 4月27日

Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey

Arxiv

1+阅读 · 4月21日

Strengthening Human-Centric Chain-of-Thought Reasoning Integrity in LLMs via a Structured Prompt Framework

Arxiv

0+阅读 · 4月6日

Brainstacks: Cross-Domain Cognitive Capabilities via Frozen MoE-LoRA Stacks for Continual LLM Learning

Arxiv

0+阅读 · 4月1日

NextQuill: Causal Preference Modeling for Enhancing LLM Personalization

Arxiv

0+阅读 · 3月30日

A Pipelined Collaborative Speculative Decoding Framework for Efficient Edge-Cloud LLM Inference

Arxiv

0+阅读 · 3月27日

LLM Inference at the Edge: Mobile, NPU, and GPU Performance Efficiency Trade-offs Under Sustained Load

Arxiv

0+阅读 · 3月24日

A Pipelined Collaborative Speculative Decoding Framework for Efficient Edge-Cloud LLM Inference

Arxiv

0+阅读 · 3月19日

QuantFL: Sustainable Federated Learning for Edge IoT via Pre-Trained Model Quantisation

QuantFL: Sustainable Federated Learning for Edge IoT via Pre-Trained Model Quantisation

Arxiv

0+阅读 · 3月18日

A Systematic Evaluation of On-Device LLMs: Quantization, Performance, and Resources

Arxiv

0+阅读 · 3月16日

相关基金

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

车联网环境下基于路段负载链估测与优化的动态交通诱导方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

大数据背景下面向操作模式的约简算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于智慧的下一代网络资源优化机制研究

国家自然科学基金

2+阅读 · 2015年12月31日

复杂网络上数据传输博弈的合作性优化与控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

外包与云计算情境下IT业务匹配研究：适应性结构化理论视角

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员