The migration of Large Language Models (LLMs) from cloud clusters to edge devices promises enhanced privacy and offline accessibility, but this transition encounters a harsh reality: the physical constraints of mobile batteries, thermal limits, and, most importantly, memory constraints. To navigate this landscape, we constructed a reproducible experimental pipeline to profile the complex interplay between energy consumption, latency, and quality. Unlike theoretical studies, we captured granular power metrics across eight models ranging from 0.5B to 9B parameters without requiring root access, ensuring our findings reflect realistic user conditions. We harness this pipeline to conduct an empirical case study on a flagship Android device, the Samsung Galaxy S25 Ultra, establishing foundational hypotheses regarding the trade-offs between generation quality, performance, and resource consumption. Our investigation uncovered a counter-intuitive quantization-energy paradox. While modern importance-aware quantization successfully reduces memory footprints to fit larger models into RAM, we found it yields negligible energy savings compared to standard mixed-precision methods. This proves that for battery life, the architecture of the model, not its quantization scheme, is the decisive factor. We further identified that Mixture-of-Experts (MoE) architectures defy the standard size-energy trend, offering the storage capacity of a 7B model while maintaining the lower energy profile of a 1B to 2B model. Finally, an analysis of these multi-objective trade-offs reveals a pragmatic sweet spot of mid-sized models, such as Qwen2.5-3B, that effectively balance response quality with sustainable energy consumption.


翻译:大语言模型(LLMs)从云端集群向边缘设备的迁移,虽然有望增强隐私保护与离线可用性,但这一转变面临着严酷的现实:移动电池的物理限制、热限,以及最重要的——内存约束。为应对这一挑战,我们构建了一个可复现的实验管道,用于剖析能耗、延迟和质量之间复杂的相互作用。与理论研究不同,我们在无需获取根权限的情况下,捕获了从0.5B到9B参数的八种模型的精细功耗指标,确保我们的发现反映了真实用户条件。我们利用这一管道,在旗舰安卓设备三星Galaxy S25 Ultra上进行了一项实证案例研究,建立了关于生成质量、性能与资源消耗之间权衡的基本假设。我们的调查揭示了一个反直觉的量化-能量悖论。尽管现代重要性感知量化成功减少了内存占用,使更大模型能装入RAM,但我们发现,与标准混合精度方法相比,它带来的能量节省微乎其微。这证明了对于电池寿命而言,模型架构而非其量化方案才是决定性因素。我们进一步发现,混合专家(MoE)架构打破了标准尺寸-能量趋势,能够在保持1B至2B模型较低能耗水平的同时,提供7B模型的存储容量。最后,对这些多目标权衡的分析揭示了一个务实的中间地带:如Qwen2.5-3B这类中等规模模型,能在响应质量与可持续能耗之间实现有效平衡。

0
下载
关闭预览

相关内容

综述:面向移动端大语言模型的隐私与安全
专知会员服务
19+阅读 · 2025年9月7日
移动边缘智能与大型语言模型综述
专知会员服务
42+阅读 · 2024年7月31日
迈向可信的人工智能:伦理和稳健的大型语言模型综述
专知会员服务
39+阅读 · 2024年7月28日
《大型语言模型持续学习》综述
专知会员服务
93+阅读 · 2024年4月26日
深度学习模型不确定性方法对比
PaperWeekly
20+阅读 · 2020年2月10日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月24日
Arxiv
18+阅读 · 2023年9月2日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
7+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员