The deployment of large language models' (LLMs) inference at the edge can facilitate prompt service responsiveness while protecting user privacy. However, it is critically challenged by the resource constraints of a single edge node. Distributed inference has emerged to aggregate and leverage computational resources across multiple devices. Yet, existing methods typically require strict synchronization, which is often infeasible due to the unreliable network conditions. In this paper, we propose HALO, a novel framework that can boost the distributed LLM inference in lossy edge network. The core idea is to enable a relaxed yet effective synchronization by strategically allocating less critical neuron groups to unstable devices, thus avoiding the excessive waiting time incurred by delayed packets. HALO introduces three key mechanisms: (1) a semantic-aware predictor to assess the significance of neuron groups prior to activation. (2) a parallel execution scheme of neuron group loading during the model inference. (3) a load-balancing scheduler that efficiently orchestrates multiple devices with heterogeneous resources. Experimental results from a Raspberry Pi cluster demonstrate that HALO achieves a 3.41x end-to-end speedup for LLaMA-series LLMs under unreliable network conditions. It maintains performance comparable to optimal conditions and significantly outperforms the state-of-the-art in various scenarios.


翻译:在边缘部署大语言模型(LLMs)推理能够提升服务响应速度,同时保护用户隐私。然而,单个边缘节点的资源限制构成了严峻挑战。分布式推理应运而生,旨在聚合并利用多个设备的计算资源。然而,现有方法通常要求严格的同步,这在不可靠的网络条件下往往难以实现。本文提出HALO,一种新颖的框架,旨在提升丢包边缘网络中的分布式LLM推理性能。其核心思想是通过策略性地将重要性较低的神经元组分配给不稳定的设备,从而实现一种宽松但有效的同步,避免因数据包延迟导致的过度等待时间。HALO引入了三个关键机制:(1)一个语义感知预测器,用于在激活前评估神经元组的重要性;(2)在模型推理过程中并行执行神经元组加载的方案;(3)一个负载均衡调度器,能够高效协调具有异构资源的多个设备。在树莓派集群上的实验结果表明,在不可靠的网络条件下,HALO为LLaMA系列大语言模型实现了3.41倍的端到端加速。其性能与最优条件相当,并在多种场景下显著优于现有最优方法。

0
下载
关闭预览

相关内容

大语言模型的智能体化推理
专知会员服务
32+阅读 · 1月21日
大语言模型中的隐式推理:综合综述
专知会员服务
32+阅读 · 2025年9月4日
大语言模型在序列推荐中的应用
专知会员服务
19+阅读 · 2024年11月12日
边缘大型语言模型综述:设计、执行与应用
专知会员服务
41+阅读 · 2024年10月21日
移动边缘智能与大型语言模型综述
专知会员服务
40+阅读 · 2024年7月31日
大型语言模型高效推理综述
专知会员服务
64+阅读 · 2024年4月23日
通过集成 XNNPACK 实现推理速度飞跃
TensorFlow
26+阅读 · 2020年7月30日
论文浅尝 | 基于神经网络的知识推理
开放知识图谱
15+阅读 · 2018年3月12日
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
边缘计算:万物互联时代新型计算模型
计算机研究与发展
15+阅读 · 2017年5月19日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关VIP内容
大语言模型的智能体化推理
专知会员服务
32+阅读 · 1月21日
大语言模型中的隐式推理:综合综述
专知会员服务
32+阅读 · 2025年9月4日
大语言模型在序列推荐中的应用
专知会员服务
19+阅读 · 2024年11月12日
边缘大型语言模型综述:设计、执行与应用
专知会员服务
41+阅读 · 2024年10月21日
移动边缘智能与大型语言模型综述
专知会员服务
40+阅读 · 2024年7月31日
大型语言模型高效推理综述
专知会员服务
64+阅读 · 2024年4月23日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员