Deploying large language models (LLMs) in mobile and edge computing environments is constrained by limited on-device resources, scarce wireless bandwidth, and frequent model evolution. Although edge-cloud collaborative inference with speculative decoding (SD) can reduce end-to-end latency by executing a lightweight draft model at the edge and verifying it with a cloud-side target model, existing frameworks fundamentally rely on tight coupling between the two models. Consequently, repeated model synchronization introduces excessive communication overhead, increasing end-to-end latency, and ultimately limiting the scalability of SD in edge environments. To address these limitations, we propose FlexSpec, a communication-efficient collaborative inference framework tailored for evolving edge-cloud systems. The core design of FlexSpec is a shared-backbone architecture that allows a single and static edge-side draft model to remain compatible with a large family of evolving cloud-side target models. By decoupling edge deployment from cloud-side model updates, FlexSpec eliminates the need for edge-side retraining or repeated model downloads, substantially reducing communication and maintenance costs. Furthermore, to accommodate time-varying wireless conditions and heterogeneous device constraints, we develop a channel-aware adaptive speculation mechanism that dynamically adjusts the speculative draft length based on real-time channel state information and device energy budgets. Extensive experiments demonstrate that FlexSpec achieves superior performance compared to conventional SD approaches in terms of inference efficiency.


翻译:在移动与边缘计算环境中部署大型语言模型(LLM)受到设备资源有限、无线带宽稀缺以及模型频繁演化的制约。尽管基于推测解码(SD)的边缘-云协同推理可通过在边缘执行轻量级草稿模型并在云端使用目标模型进行验证来降低端到端延迟,但现有框架本质上依赖于两模型间的紧密耦合。这导致重复的模型同步引入过量通信开销,增加端到端延迟,最终限制了SD在边缘环境中的可扩展性。为应对这些局限,我们提出FlexSpec——一种专为演化的边缘-云系统设计的通信高效协同推理框架。FlexSpec的核心设计是共享主干架构,使得单一且静态的边缘侧草稿模型能够与一系列演化的云端目标模型保持兼容。通过将边缘部署与云端模型更新解耦,FlexSpec消除了边缘侧重训练或重复模型下载的需求,显著降低了通信与维护成本。此外,为适应时变的无线条件与异构设备约束,我们开发了一种信道感知自适应推测机制,可根据实时信道状态信息与设备能量预算动态调整推测草稿长度。大量实验表明,FlexSpec在推理效率方面优于传统SD方法。

0
下载
关闭预览

相关内容

【KDD2024】HiGPT:异构图语言模型
专知会员服务
19+阅读 · 2024年7月9日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员