Large language models (LLMs) offer significant potential for intelligent mobile services but are computationally intensive for resource-constrained devices. Mobile edge computing (MEC) allows such devices to offload inference tasks to edge servers (ESs), yet introduces latency due to communication and serverside queuing, especially in multi-user environments. In this work, we propose an uncertainty-aware offloading framework that dynamically decides whether to perform inference locally or offload it to the ES, based on token-level uncertainty and resource constraints. We define a margin-based token-level uncertainty metric and demonstrate its correlation with model accuracy. Leveraging this metric, we design a greedy offloading algorithm (GOA) that minimizes delay while maintaining accuracy by prioritizing offloading for highuncertainty queries. Our experiments show that GOA consistently achieves a favorable trade-off, outperforming baseline strategies in both accuracy and latency across varying user densities, and operates with practical computation time. These results establish GOA as a scalable and effective solution for LLM inference in MEC environments.


翻译:大型语言模型(LLM)为智能移动服务提供了巨大潜力,但其计算密集型特性对资源受限设备构成了挑战。移动边缘计算(MEC)允许此类设备将推理任务卸载至边缘服务器(ES),然而由于通信及服务器端排队(尤其在多用户环境中)会引入延迟。本文提出一种基于不确定性的卸载框架,该框架根据词元级不确定性与资源约束,动态决定在本地执行推理或将其卸载至ES。我们定义了一种基于间隔的词元级不确定性度量,并论证了其与模型精度的相关性。利用该度量,我们设计了一种贪心卸载算法(GOA),该算法通过优先卸载高不确定性查询,在保持精度的同时最小化延迟。实验表明,GOA在不同用户密度下均能持续实现有利的权衡,在精度与延迟方面均优于基线策略,且具有实际可行的计算时间。这些结果确立了GOA作为MEC环境中LLM推理的可扩展且有效的解决方案。

0
下载
关闭预览

相关内容

卸载从硬盘删除程序文件和文件夹以及从注册表删除相关数据的操作
LLM/智能体作为数据分析师:综述
专知会员服务
36+阅读 · 2025年9月30日
【ICLR2024】能检测到LLM产生的错误信息吗?
专知会员服务
25+阅读 · 2024年1月23日
专知会员服务
37+阅读 · 2021年7月8日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
放弃 RNN/LSTM 吧,因为真的不好用!望周知~
人工智能头条
19+阅读 · 2018年4月24日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关VIP内容
LLM/智能体作为数据分析师:综述
专知会员服务
36+阅读 · 2025年9月30日
【ICLR2024】能检测到LLM产生的错误信息吗?
专知会员服务
25+阅读 · 2024年1月23日
专知会员服务
37+阅读 · 2021年7月8日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员