Communication-Efficient Collaborative LLM Inference over LEO Satellite Networks - 专知论文

会员服务 ·

0

推理延迟 · 协同 · 分割 · 卫星网络 · 模型分割 ·

Communication-Efficient Collaborative LLM Inference over LEO Satellite Networks

翻译：面向低轨卫星网络的通信高效协同大语言模型推理方案

Songge Zhang,Wen Wu,Liang Li,Ye Wang, Xuemin, Shen

from arxiv, 13 pages, 12 figures,

Low Earth orbit (LEO) satellites play an essential role in intelligent Earth observation by leveraging artificial intelligence models. However, limited onboard memory and excessive inference delay prevent the practical deployment of large language models (LLMs) on a single satellite. In this paper, we propose a communication-efficient collaborative LLM inference scheme for LEO satellite networks. Specifically, the entire LLM is split into multiple sub-models, with each deployed on a satellite, thereby enabling collaborative LLM inference via exchanging intermediate activations between satellites. The proposed scheme also leverages the pipeline parallelism mechanism that overlaps sub-model inference with intermediate activation transmission, thereby reducing LLM inference delay. An adaptive activation compression scheme is designed to mitigate cumulative errors from multi-stage model splitting while preserving inference accuracy. Furthermore, we formulate the LLM inference delay minimization problem by jointly optimizing model splitting and compression ratios under onboard memory and inference accuracy constraints. The problem is transformed into a shortest-path search problem over a directed acyclic graph that edge weights explicitly quantify the inference delay induced by model splitting and compression strategies, which is solved via a modified A Star-based search algorithm. Extensive simulation results indicate that the proposed solution can reduce inference delay by up to 42% and communication overhead by up to 71% compared to state-of-the-art benchmarks, while maintaining the inference accuracy loss of less than 1%.

翻译：低地球轨道（LEO）卫星通过利用人工智能模型，在智能地球观测中发挥着重要作用。然而，有限的内存容量和过高的推理延迟阻碍了大语言模型（LLM）在单颗卫星上的实际部署。本文提出了一种面向LEO卫星网络的通信高效协同LLM推理方案。具体而言，将整个LLM分割为多个子模型，每个子模型部署在一颗卫星上，通过卫星间交换中间激活值实现协同LLM推理。该方案还利用了流水线并行机制，将子模型推理与中间激活值传输重叠进行，从而降低LLM推理延迟。设计了一种自适应激活压缩方案，以减轻多阶段模型分割带来的累积误差，同时保持推理精度。此外，我们通过联合优化内存和推理精度约束下的模型分割与压缩比，建立了LLM推理延迟最小化问题。该问题被转化为有向无环图上的最短路径搜索问题，其中边权重明确量化了模型分割与压缩策略引起的推理延迟，并通过改进的A星搜索算法求解。大量仿真结果表明，与现有最优基准相比，所提方案在推理精度损失低于1%的条件下，能将推理延迟降低最高42%，通信开销降低最高71%。

0

相关内容

推理延迟

《执行无人机蜂群任务：智能体增强大语言模型推理赋能无人机物联网》

《执行无人机蜂群任务：智能体增强大语言模型推理赋能无人机物联网》

专知会员服务

13+阅读 · 5月12日

《探索军事背景下共享大语言模型：AI助手与智能体部署中可扩展性与效率的早期洞察》（含44页slides）

《探索军事背景下共享大语言模型：AI助手与智能体部署中可扩展性与效率的早期洞察》（含44页slides）

专知会员服务

23+阅读 · 2025年10月31日

基于大语言模型（LLM）的智能体推理框架：从方法到场景的综述

基于大语言模型（LLM）的智能体推理框架：从方法到场景的综述

专知会员服务

55+阅读 · 2025年8月26日

《国防低地球轨道（LEO）卫星通信弹性研究》最新79页报告

《国防低地球轨道（LEO）卫星通信弹性研究》最新79页报告

专知会员服务

30+阅读 · 2025年6月5日

高效大语言模型推理服务综述

高效大语言模型推理服务综述

专知会员服务

18+阅读 · 2025年4月30日

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

专知会员服务

48+阅读 · 2025年4月12日

《大语言模型赋能天空地一体化网络：最新进展和未来方向》最新30页长综述

《大语言模型赋能天空地一体化网络：最新进展和未来方向》最新30页长综述

专知会员服务

70+阅读 · 2025年2月7日

《利用商用 5G 和低轨道(LEO)卫星技术加强陆军-海军传感器-射手网络》83页

《利用商用 5G 和低轨道(LEO)卫星技术加强陆军-海军传感器-射手网络》83页

专知会员服务

53+阅读 · 2024年7月14日

大型语言模型高效推理综述

大型语言模型高效推理综述

专知会员服务

64+阅读 · 2024年4月23日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

【论文笔记】具有深度注意力网络的协同Bundle（项目组合）推荐

【论文笔记】具有深度注意力网络的协同Bundle（项目组合）推荐

专知

11+阅读 · 2019年10月14日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

哈工大讯飞联合实验室发布中文XLNet预训练模型

哈工大讯飞联合实验室发布中文XLNet预训练模型

哈工大SCIR

13+阅读 · 2019年8月20日

LinkTrack UWB高精度定位系统首发，一套可以随时搭建的"小卫星"定位系统，集定位|导航|授时|通信于一体

LinkTrack UWB高精度定位系统首发，一套可以随时搭建的"小卫星"定位系统，集定位|导航|授时|通信于一体

无人机

10+阅读 · 2019年7月18日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

基于车路协同的群体智能协同

基于车路协同的群体智能协同

智能交通技术

10+阅读 · 2019年1月23日

论文浅尝 | 基于神经网络的推理（DeepMind Relational Reasoning）

论文浅尝 | 基于神经网络的推理（DeepMind Relational Reasoning）

开放知识图谱

14+阅读 · 2018年4月3日

低信噪比条件下数字通信系统码辅助同步技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

多路径通信网络关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向空间自组网的低功耗理论与技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

即时通信中的隐蔽通信模型及方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于动态频谱共享的星地协同认知无线通信技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

内容中心移动社交网络高效安全匿名通信机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

融合式多址通信网络理论与控制协议研究

国家自然科学基金

0+阅读 · 2014年12月31日

利用复杂网络理論优化车载通信网络

国家自然科学基金

1+阅读 · 2014年12月31日

分布式卫星-薄膜新型空间结构的在轨指向协同控制研究

国家自然科学基金

1+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

A Task Decomposition and Planning Framework for Efficient LLM Inference in AI-Enabled WiFi-Offload Networks

Arxiv

0+阅读 · 4月23日

Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey

Arxiv

1+阅读 · 4月21日

Joint Optimization of Handoff and Video Rate in LEO Satellite Networks

Arxiv

0+阅读 · 4月20日

Adaptive Power Allocation and User Scheduling for LEO Satellites using Channel Predictions

Arxiv

0+阅读 · 4月17日

Combating the Memory Walls: Optimization Pathways for Long-Context Agentic LLM Inference

Arxiv

0+阅读 · 4月12日

Offline-First LLM Architecture for Adaptive Learning in Low-Connectivity Environments

Arxiv

0+阅读 · 4月10日

Heterogeneous Debate Engine: Identity-Grounded Cognitive Architecture for Resilient LLM-Based Ethical Tutoring

Arxiv

0+阅读 · 3月28日

A Pipelined Collaborative Speculative Decoding Framework for Efficient Edge-Cloud LLM Inference

Arxiv

0+阅读 · 3月27日

OrbCC: High-Throughput and Low-Latency Data Transport for LEO Satellite Networks

Arxiv

0+阅读 · 3月25日

A Pipelined Collaborative Speculative Decoding Framework for Efficient Edge-Cloud LLM Inference

Arxiv

0+阅读 · 3月19日

VIP会员

文章信息

相关主题

最新内容

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

11+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

4+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

7+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

8+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

11+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

12+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

8+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

21+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

10+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

相关VIP内容

《执行无人机蜂群任务：智能体增强大语言模型推理赋能无人机物联网》

《执行无人机蜂群任务：智能体增强大语言模型推理赋能无人机物联网》

专知会员服务

13+阅读 · 5月12日

《探索军事背景下共享大语言模型：AI助手与智能体部署中可扩展性与效率的早期洞察》（含44页slides）

《探索军事背景下共享大语言模型：AI助手与智能体部署中可扩展性与效率的早期洞察》（含44页slides）

专知会员服务

23+阅读 · 2025年10月31日

基于大语言模型（LLM）的智能体推理框架：从方法到场景的综述

基于大语言模型（LLM）的智能体推理框架：从方法到场景的综述

专知会员服务

55+阅读 · 2025年8月26日

《国防低地球轨道（LEO）卫星通信弹性研究》最新79页报告

《国防低地球轨道（LEO）卫星通信弹性研究》最新79页报告

专知会员服务

30+阅读 · 2025年6月5日

高效大语言模型推理服务综述

高效大语言模型推理服务综述

专知会员服务

18+阅读 · 2025年4月30日

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

专知会员服务

48+阅读 · 2025年4月12日

《大语言模型赋能天空地一体化网络：最新进展和未来方向》最新30页长综述

《大语言模型赋能天空地一体化网络：最新进展和未来方向》最新30页长综述

专知会员服务

70+阅读 · 2025年2月7日

《利用商用 5G 和低轨道(LEO)卫星技术加强陆军-海军传感器-射手网络》83页

《利用商用 5G 和低轨道(LEO)卫星技术加强陆军-海军传感器-射手网络》83页

专知会员服务

53+阅读 · 2024年7月14日

大型语言模型高效推理综述

大型语言模型高效推理综述

专知会员服务

64+阅读 · 2024年4月23日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

热门VIP内容

开通专知VIP会员享更多权益服务

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

【论文笔记】具有深度注意力网络的协同Bundle（项目组合）推荐

【论文笔记】具有深度注意力网络的协同Bundle（项目组合）推荐

专知

11+阅读 · 2019年10月14日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

哈工大讯飞联合实验室发布中文XLNet预训练模型

哈工大讯飞联合实验室发布中文XLNet预训练模型

哈工大SCIR

13+阅读 · 2019年8月20日

LinkTrack UWB高精度定位系统首发，一套可以随时搭建的"小卫星"定位系统，集定位|导航|授时|通信于一体

LinkTrack UWB高精度定位系统首发，一套可以随时搭建的"小卫星"定位系统，集定位|导航|授时|通信于一体

无人机

10+阅读 · 2019年7月18日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

基于车路协同的群体智能协同

基于车路协同的群体智能协同

智能交通技术

10+阅读 · 2019年1月23日

论文浅尝 | 基于神经网络的推理（DeepMind Relational Reasoning）

论文浅尝 | 基于神经网络的推理（DeepMind Relational Reasoning）

开放知识图谱

14+阅读 · 2018年4月3日

相关论文

A Task Decomposition and Planning Framework for Efficient LLM Inference in AI-Enabled WiFi-Offload Networks

Arxiv

0+阅读 · 4月23日

Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey

Arxiv

1+阅读 · 4月21日

Joint Optimization of Handoff and Video Rate in LEO Satellite Networks

Arxiv

0+阅读 · 4月20日

Adaptive Power Allocation and User Scheduling for LEO Satellites using Channel Predictions

Arxiv

0+阅读 · 4月17日

Combating the Memory Walls: Optimization Pathways for Long-Context Agentic LLM Inference

Arxiv

0+阅读 · 4月12日

Offline-First LLM Architecture for Adaptive Learning in Low-Connectivity Environments

Arxiv

0+阅读 · 4月10日

Heterogeneous Debate Engine: Identity-Grounded Cognitive Architecture for Resilient LLM-Based Ethical Tutoring

Arxiv

0+阅读 · 3月28日

A Pipelined Collaborative Speculative Decoding Framework for Efficient Edge-Cloud LLM Inference

Arxiv

0+阅读 · 3月27日

OrbCC: High-Throughput and Low-Latency Data Transport for LEO Satellite Networks

Arxiv

0+阅读 · 3月25日

A Pipelined Collaborative Speculative Decoding Framework for Efficient Edge-Cloud LLM Inference

Arxiv

0+阅读 · 3月19日

相关基金

低信噪比条件下数字通信系统码辅助同步技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

多路径通信网络关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向空间自组网的低功耗理论与技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

即时通信中的隐蔽通信模型及方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于动态频谱共享的星地协同认知无线通信技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

内容中心移动社交网络高效安全匿名通信机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

融合式多址通信网络理论与控制协议研究

国家自然科学基金

0+阅读 · 2014年12月31日

利用复杂网络理論优化车载通信网络

国家自然科学基金

1+阅读 · 2014年12月31日

分布式卫星-薄膜新型空间结构的在轨指向协同控制研究

国家自然科学基金

1+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员