This paper investigates compact large language model (LLM) deployment and world-model-assisted inference offloading in mobile edge computing (MEC) networks. We first propose an edge compact LLM deployment (ECLD) framework that jointly applies structured pruning, low-bit quantization, and knowledge distillation to construct edge-deployable LLM variants, and we evaluate these models using four complementary metrics: accessibility, energy consumption, hallucination rate, and generalization accuracy. Building on the resulting compact models, we formulate an MEC offloading optimization problem that minimizes the long-term average inference latency subject to per-device energy budgets and LLM-specific quality-of-service constraints on effective accuracy and hallucination. To solve this problem under unknown and time-varying network dynamics, we develop a world model-proximal policy optimization (PPO) algorithm, which augments an on-policy PPO algorithm with a learned recurrent world model that provides improved value targets and short imagination rollouts. Extensive experiments on Llama-3.1-8B, Qwen3-8B, and Mistral-12B show that ECLD compresses base models by about 70-80% in storage (i.e., from 15.3 GB to 3.3 GB for Llama-3.1-8B) and reduces per-query energy consumption by up to 50%, while largely preserving accuracy and often lowering hallucination compared with quantization-only or pruning-only baselines. Moreover, they also show that world model-PPO speeds up convergence by about 50%, improves the final reward by 15.8% over vanilla PPO, and reduces average inference latency by 12-30% across different user populations, while satisfying the accuracy and hallucination constraints and approaching the generation quality of always-offloading with much of the efficiency of local execution.


翻译:本文研究了移动边缘计算网络中紧凑型大语言模型的部署以及世界模型辅助的推理卸载问题。我们首先提出了一种边缘紧凑型大语言模型部署框架,该框架联合应用结构化剪枝、低位量化和知识蒸馏技术来构建可在边缘部署的大语言模型变体,并使用四个互补指标评估这些模型:可访问性、能耗、幻觉率和泛化准确率。基于所得紧凑模型,我们构建了一个移动边缘计算卸载优化问题,目标是在满足单设备能量预算以及大语言模型在有效准确率和幻觉方面的特定服务质量约束条件下,最小化长期平均推理延迟。为解决未知且时变的网络动态下的该问题,我们开发了一种世界模型-近端策略优化算法,该算法通过一个学习得到的循环世界模型增强同策略近端策略优化算法,该世界模型可提供改进的价值目标和短期想象推演。在Llama-3.1-8B、Qwen3-8B和Mistral-12B上的大量实验表明,边缘紧凑型大语言模型部署框架将基础模型的存储空间压缩了约70-80%(例如,Llama-3.1-8B从15.3 GB压缩至3.3 GB),并将单次查询能耗降低高达50%,同时与仅量化或仅剪枝的基线方法相比,很大程度上保持了准确率,并通常降低了幻觉率。此外,实验还表明,世界模型-近端策略优化算法使收敛速度加快了约50%,最终奖励比原始近端策略优化算法提高了15.8%,并在不同用户群体中将平均推理延迟降低了12-30%,同时满足了准确率和幻觉约束,并接近始终卸载的生成质量,同时保持了大部分本地执行的效率。

0
下载
关闭预览

相关内容

综述:面向移动端大语言模型的隐私与安全
专知会员服务
19+阅读 · 2025年9月7日
边缘大型语言模型综述:设计、执行与应用
专知会员服务
41+阅读 · 2024年10月21日
推荐系统与大语言模型技术融合:EMNLP/NeurIPS相关论文导览
移动边缘智能与大型语言模型综述
专知会员服务
40+阅读 · 2024年7月31日
大语言模型算法演进综述
专知会员服务
81+阅读 · 2024年5月30日
专知会员服务
37+阅读 · 2021年7月8日
《“边缘计算+”技术白皮书》,82页pdf
专知
11+阅读 · 2022年8月28日
【边缘计算】边缘计算面临的问题
产业智能官
17+阅读 · 2019年5月31日
边缘计算(一)——边缘计算的兴起
大数据和云计算技术
12+阅读 · 2018年12月25日
边缘计算:万物互联时代新型计算模型
计算机研究与发展
15+阅读 · 2017年5月19日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关VIP内容
综述:面向移动端大语言模型的隐私与安全
专知会员服务
19+阅读 · 2025年9月7日
边缘大型语言模型综述:设计、执行与应用
专知会员服务
41+阅读 · 2024年10月21日
推荐系统与大语言模型技术融合:EMNLP/NeurIPS相关论文导览
移动边缘智能与大型语言模型综述
专知会员服务
40+阅读 · 2024年7月31日
大语言模型算法演进综述
专知会员服务
81+阅读 · 2024年5月30日
专知会员服务
37+阅读 · 2021年7月8日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员