Large language models (LLMs) are becoming increasingly capable at small parameter scales. At the same time, conventional cloud-centric deployment introduces challenges around data privacy, latency, and cost that are acute in operational technology and defence environments. Advances in model distillation, quantisation, and affordable edge accelerators now make local LLM inference on single-board computers feasible, but the high dimensionality of the configuration space makes identifying optimal deployments difficult without structured evaluation. Existing LLM-specific edge benchmarking efforts rely on CPU-only inference, poor coverage of genuine single-board computers, and generic evaluation tasks that lack multi-dimensional assessment of hardware effectiveness. This paper proposes a multi-dimensional benchmarking methodology that jointly evaluates inference performance and hardware efficiency across four IoT-suitable edge platform configurations testing single-board computers with the latest available hardware accelerators. Our results reveal the benefits of using hardware accelerators such as NPUs and GPUs, along with multi-dimensional evaluations quantifying the trade-offs between power efficiency, physical device size and token throughput; offering practical guidance for deploying generative AI in privacy-sensitive and connectivity-limited environments such as unmanned vehicles and portable, ruggedised operations.


翻译:大型语言模型(LLM)在小参数规模下日益强大。与此同时,传统的以云为中心的部署带来了数据隐私、延迟和成本方面的挑战,这些问题在操作技术和国防环境中尤为突出。模型蒸馏、量化以及经济型边缘加速器的进步,使得在单板计算机上进行本地LLM推理成为可能,但配置空间的高维度使得缺乏结构化评估时难以确定最优部署方案。现有的LLM专用边缘基准测试工作依赖于仅限CPU的推理、对真正单板计算机的覆盖不足,以及缺乏硬件有效性多维评估的通用评估任务。本文提出了一种多维基准测试方法,该方法联合评估了四种适合物联网的边缘平台配置(测试配备最新可用硬件加速器的单板计算机)上的推理性能和硬件效率。我们的结果揭示了使用NPU和GPU等硬件加速器的优势,以及量化功耗效率、物理设备尺寸和令牌吞吐量之间权衡的多维评估;为在隐私敏感和连接受限环境(如无人驾驶车辆和便携式加固操作)中部署生成式AI提供了实用指导。

0
下载
关闭预览

相关内容

边缘大型语言模型综述:设计、执行与应用
专知会员服务
41+阅读 · 2024年10月21日
《大语言模型推理加速》全面的硬件视角
专知会员服务
34+阅读 · 2024年10月12日
移动边缘智能与大型语言模型综述
专知会员服务
42+阅读 · 2024年7月31日
《大型语言模型(LLMs): 训练到推理》全面概述技术细节
《“边缘计算+”技术白皮书》,82页pdf
专知
11+阅读 · 2022年8月28日
3倍加速CPU上的BERT模型部署
ApacheMXNet
11+阅读 · 2020年7月13日
【边缘计算】边缘计算面临的问题
产业智能官
17+阅读 · 2019年5月31日
【边缘智能】边缘计算驱动的深度学习加速技术
产业智能官
20+阅读 · 2019年2月8日
边缘计算:万物互联时代新型计算模型
计算机研究与发展
15+阅读 · 2017年5月19日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员