With the increasing computational capability of mobile devices, deploying agentic retrieval-augmented generation (RAG) locally on heterogeneous System-on-Chips (SoCs) has become a promising way to enhance LLM-based applications. However, agentic RAG induces multi-stage workflows with heterogeneous models and dynamic execution flow, while mobile SoCs exhibit strong accelerator affinity, shape sensitivity, and shared-memory bandwidth contention, making naive scheduling ineffective. We present HeRo, a heterogeneous-aware framework for low-latency agentic RAG on mobile SoCs. HeRo builds profiling-based performance models for each sub-stage and model-PU configuration, capturing latency, workload shape, and contention-induced slowdown, and leverages them in a lightweight online scheduler that combines shape-aware sub-stage partitioning, criticality-based accelerator mapping, and bandwidth-aware concurrency control. Experiments on commercial mobile devices show that HeRo reduces end-to-end latency by up to $10.94\times$ over existing deployment strategies, enabling practical on-device agentic RAG.


翻译:随着移动设备计算能力的不断提升,在异构片上系统(SoC)上本地部署智能检索增强生成(RAG)已成为增强基于大语言模型(LLM)应用前景广阔的方式。然而,智能RAG引入了包含异构模型和动态执行流程的多阶段工作流,而移动SoC则表现出强烈的加速器亲和性、形状敏感性以及共享内存带宽争用,这使得简单的调度策略效率低下。我们提出了HeRo,一个面向移动SoC上低延迟智能RAG的异构感知框架。HeRo为每个子阶段和模型-处理单元配置建立了基于性能剖析的性能模型,捕获延迟、工作负载形状以及争用引起的减速,并利用这些模型在一个轻量级在线调度器中结合了形状感知的子阶段划分、基于关键性的加速器映射以及带宽感知的并发控制。在商用移动设备上的实验表明,与现有部署策略相比,HeRo将端到端延迟降低了高达$10.94\times$,从而实现了实用的设备端智能RAG。

0
下载
关闭预览

相关内容

【新书】Essential GraphRAG: 知识图谱增强的RAG
专知会员服务
34+阅读 · 2025年7月17日
智能体检索增强生成:关于智能体RAG的综述
专知会员服务
92+阅读 · 2025年1月21日
微软最新《检索增强生成(RAG)》综述
专知会员服务
57+阅读 · 2024年9月24日
RAG 与 LLMs 的结合 - 迈向检索增强的大型语言模型综述
专知会员服务
101+阅读 · 2024年5月13日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
NLG ≠ 机器写作 | 专家专栏
量子位
13+阅读 · 2018年9月10日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
最新内容
澳大利亚发布《国防战略(2026年)》
专知会员服务
0+阅读 · 25分钟前
【CMU博士论文】迈向基于基础先验的 4D 感知研究
专知会员服务
0+阅读 · 21分钟前
全球高超音速武器最新发展趋势
专知会员服务
0+阅读 · 50分钟前
人工智能在战场行动中的演进及伊朗案例
专知会员服务
7+阅读 · 4月18日
美AI公司Anthropic推出网络安全模型“Mythos”
专知会员服务
4+阅读 · 4月18日
【博士论文】面向城市环境的可解释计算机视觉
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员