Federated inference enhances LLM performance in edge computing through weighted averaging of distributed model predictions. However, autoregressive LLM inference requires frequent full-model forward passes across workers, severely limiting decoding throughput. Distributed deployment further aggravates this due to a communication bottleneck: each worker must transmit full token probability distributions per draft token, dominating end-to-end latency. To address these challenges, we introduce speculative decoding to enable parallel LLM processing and propose a top-K compressed transmission scheme with two server-side reconstruction strategies. We theoretically analyze the robustness of our method in terms of local reconstruction error, aggregation bias, and acceptance-rate bias, and derive corresponding bounds. Experiments demonstrate that our scheme achieves high generation fidelity while significantly reducing communication overhead.


翻译:联邦推理通过加权平均分布式模型预测提升边缘计算中大语言模型(LLM)的性能。然而,自回归式LLM推理需要工作节点间频繁执行全模型前向传播,严重制约了解码吞吐量。分布式部署进一步加剧了通信瓶颈:每个工作节点必须为每个草稿令牌传输完整的令牌概率分布,主导了端到端延迟。为解决这些挑战,我们引入推测解码以实现LLM并行处理,并提出一种包含两种服务端重构策略的Top-K压缩传输方案。我们从局部重构误差、聚合偏差及接受率偏差角度理论分析了本方法的鲁棒性,推导出相应的边界条件。实验表明,本方案在显著降低通信开销的同时实现了高保真度生成。

0
下载
关闭预览

相关内容

大语言模型推理系统综述
专知会员服务
30+阅读 · 2025年7月1日
大型语言模型推理增强外部知识:综述
专知会员服务
38+阅读 · 2025年6月2日
大规模语言模型推理的进展综述
专知会员服务
57+阅读 · 2025年2月8日
大型语言模型高效推理综述
专知会员服务
64+阅读 · 2024年4月23日
《大型语言模型(LLMs): 训练到推理》全面概述技术细节
通过集成 XNNPACK 实现推理速度飞跃
TensorFlow
26+阅读 · 2020年7月30日
CNN 模型压缩与加速算法综述
机器学习研究会
16+阅读 · 2017年8月25日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
大语言模型推理系统综述
专知会员服务
30+阅读 · 2025年7月1日
大型语言模型推理增强外部知识:综述
专知会员服务
38+阅读 · 2025年6月2日
大规模语言模型推理的进展综述
专知会员服务
57+阅读 · 2025年2月8日
大型语言模型高效推理综述
专知会员服务
64+阅读 · 2024年4月23日
《大型语言模型(LLMs): 训练到推理》全面概述技术细节
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员