Beyond pure cloud, some efforts are being made to deploy Large Language Models (LLMs) in edge to accelerate inference response. So the deployment of LLMs in cloud-edge continuum becomes a promising paradigm, where the tasks involving multimodal data occupy a large part of requests. Under this continuum, users usually concern about multiple Quality-of-Service (QoS) attributes, but it is always intractable to jointly optimize them. In this paper, we propose to study the joint optimization of those attributes and focus on two key representatives, i.e., content generation quality and response latency. We propose to study the offloading technology to achieve a tradeoff between the two objectives in the cloud-edge collaborative Multimodal LLM (MLLM) system. However, it is highly difficult to predict generation quality and inference latency for MLLM inference tasks while optimizing this offloading process. To address these unprecedented difficulties, we propose a Quality-Latency Tradeoff-Aware MLLM Inference Offloading (QLMIO) framework to make decisions that optimally balance generation quality and response latency. Meanwhile, recognizing the absence of publicly available datasets tailored to the MLLM inference offloading problem, we constructed a real-world cloud-edge collaborative MLLM system and subsequently collected an MLLM Inference Offloading Benchmark (MIOBench) to comprehensively evaluate our framework and facilitate the study of this problem. Extensive experimental results demonstrate that the QLMIO framework reduces latency by up to 58.14\% compared to baselines, while simultaneously matching the task completion rate achieved under the case that executes all requests exclusively on a cloud server. The dataset and codes are available at Github.


翻译:超越纯云端部署,已有研究尝试将大语言模型(LLM)部署至边缘以加速推理响应。因此,在云边连续体中部署LLM成为一种有前景的范式,其中涉及多模态数据的任务占据大部分请求。在此连续体下,用户通常关注多个服务质量(QoS)属性,但联合优化这些属性始终较为棘手。本文提出研究这些属性的联合优化问题,并聚焦于两个关键代表:内容生成质量与响应延迟。我们通过研究卸载技术,在云边协同的多模态大语言模型(MLLM)系统中实现两者的权衡。然而,在优化卸载过程的同时,预测MLLM推理任务的生成质量与推理延迟极具挑战性。为应对这些前所未有的困难,我们提出了一种质量-延迟权衡感知的多模态大语言模型推理卸载(QLMIO)框架,用于做出最优平衡生成质量与响应延迟的决策。同时,由于缺乏公开可用的、针对MLLM推理卸载问题的数据集,我们构建了真实的云边协同MLLM系统,并据此收集了多模态大语言模型推理卸载基准(MIOBench),以全面评估所提框架并促进该问题的研究。大量实验结果表明,与基准方法相比,QLMIO框架在延迟上最高降低58.14%,同时达到与将所有请求全部在云端服务器执行情况下相同的任务完成率。数据集与代码已发布于Github。

0
下载
关闭预览

相关内容

卸载从硬盘删除程序文件和文件夹以及从注册表删除相关数据的操作
综述:面向移动端大语言模型的隐私与安全
专知会员服务
19+阅读 · 2025年9月7日
边缘大型语言模型综述:设计、执行与应用
专知会员服务
41+阅读 · 2024年10月21日
移动边缘智能与大型语言模型综述
专知会员服务
42+阅读 · 2024年7月31日
大型语言模型高效推理综述
专知会员服务
64+阅读 · 2024年4月23日
《多模态大型语言模型》最新进展,详述26种现有MM-LLMs
专知会员服务
65+阅读 · 2024年1月25日
边缘计算:万物互联时代新型计算模型
计算机研究与发展
15+阅读 · 2017年5月19日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
定向能反无人机系统最新发展动态
专知会员服务
0+阅读 · 19分钟前
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
0+阅读 · 36分钟前
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员