Deploying local large language models and vision-language models on edge devices requires balancing accuracy with constrained computational and energy budgets. Although graphics processors dominate modern artificial-intelligence deployment, most consumer hardware--including laptops, desktops, industrial controllers, and embedded systems--relies on central processing units. Despite this, the computational laws governing central-processing-unit-only inference for local language and vision-language workloads remain largely unexplored. We systematically benchmark large language and vision-language models on two representative central-processing-unit tiers widely used for local inference: a MacBook Pro M2, reflecting mainstream laptop-class deployment, and a Raspberry Pi 5, representing constrained, low-power embedded settings. Using a unified methodology based on continuous sampling of processor and memory usage together with area-under-curve integration, we characterize how computational load scales with input text length for language models and with image resolution for vision-language models. We uncover two empirical scaling laws: (1) computational cost for language-model inference scales approximately linearly with token length; and (2) vision-language models exhibit a preprocessing-driven "resolution knee", where compute remains constant above an internal resolution clamp and decreases sharply below it. Beyond these laws, we show that quantum-inspired compression reduces processor and memory usage by up to 71.9% and energy consumption by up to 62%, while preserving or improving semantic accuracy. These results provide a systematic quantification of multimodal central-processing-unit-only scaling for local language and vision-language workloads, and they identify model compression and input-resolution preprocessing as effective, low-cost levers for sustainable edge inference.


翻译:在边缘设备上部署本地大语言模型及视觉语言模型时,需在精度与有限的计算及能耗预算间取得平衡。尽管图形处理器主导着现代人工智能部署,但大多数消费级硬件——包括笔记本电脑、台式机、工业控制器和嵌入式系统——仍依赖于中央处理器。然而,针对本地语言及视觉语言任务在纯中央处理器上进行推理的计算规律尚未得到充分探索。我们在两种广泛用于本地推理的代表性中央处理器层级上系统性地对大语言模型及视觉语言模型进行了基准测试:代表主流笔记本电脑级部署的MacBook Pro M2,以及代表受限低功耗嵌入式场景的Raspberry Pi 5。通过基于处理器与内存使用量的连续采样及曲线下面积积分的统一方法,我们量化了计算负载如何随语言模型的输入文本长度及视觉语言模型的图像分辨率而缩放。我们揭示出两条经验性缩放定律:(1) 语言模型推理的计算成本随标记长度近似线性增长;(2) 视觉语言模型存在由预处理驱动的"分辨率拐点",当输入分辨率高于内部固定阈值时计算量保持恒定,低于该阈值时则急剧下降。除上述定律外,我们证明量子启发的压缩技术可将处理器与内存使用量降低最高达71.9%,能耗降低最高达62%,同时保持或提升语义准确性。这些结果为本地语言及视觉语言任务在纯中央处理器上的多模态缩放提供了系统性量化依据,并指出模型压缩与输入分辨率预处理是实现可持续边缘推理的有效低成本调控手段。

0
下载
关闭预览

相关内容

专知会员服务
30+阅读 · 2020年9月18日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员