Agentic applications are LLMs that iteratively invoke external tools to accomplish complex tasks. Such tool-based agents are rapidly becoming the dominant paradigm for deploying language models in production. Unlike traditional single-turn inference, agentic workloads chain together multiple LLM calls and tool executions before producing a final response, creating a new performance bottleneck that manifests as increased latency in First Token Rendered (FTR) of the final answer. Through analysis of requests at production scale, we reveal three critical challenges: tool calls account for 30-85% of FTR latency, KV cache hit rates collapse despite substantial context reuse across iterations, and sequential orchestration wastes potential intra-request parallelism. These bottlenecks stem from a design gap in which orchestrators and LLM engines operate as decoupled black boxes, preventing cross-layer optimizations. We present Sutradhara, a co-designed agentic inference system that integrates orchestration with LLM serving through a thin API enabling three optimizations: overlap tool execution with subsequent LLM prefill using tool-aware prompt splitting, streaming tool execution to dispatch tools incrementally during decode rather than waiting for complete output, and orchestrator-aware cache management that uses semantic hints to improve hit rates and reduce thrashing. Implemented on vLLM, Sutradhara improves the throughput-latency trade-off in agentic systems, sustains up to 77% higher load at the same median FTR latency, or reduces median FTR latency by up to 15% at the same load while reducing end-to-end latency by upto 11% on A100 GPUs.


翻译:摘要:智能体应用是能够通过迭代调用外部工具完成复杂任务的大语言模型。这类基于工具的智能体正迅速成为生产环境中部署语言模型的主流范式。与传统单轮推理不同,智能体工作负载在生成最终响应前需串联多次LLM调用与工具执行,由此引发新的性能瓶颈,体现为最终答案的首 Token 渲染(FTR)延迟显著增加。通过对生产规模请求的分析,我们揭示了三个关键挑战:工具调用占FTR延迟的30%-85%;尽管跨迭代存在大量上下文复用,KV缓存命中率仍显著下降;顺序化编排浪费了请求内潜在的并行性。这些瓶颈源于编排器与LLM引擎以解耦黑箱方式运作的设计鸿沟,导致跨层优化无法实现。我们提出Sutradhara——一种协同设计的智能体推理系统,通过轻量级API将编排与LLM服务深度融合,实现三大优化:利用工具感知式提示拆分将工具执行与后续LLM预填充重叠;采用流式工具执行机制,在解码过程中增量分发工具调用而非等待完整输出;以及通过编排感知的缓存管理,利用语义提示提升缓存命中率并减少抖动。基于vLLM实现的Sutradhara改善了智能体系统的吞吐-延迟权衡:在相同中位FTR延迟下可维持高达77%的负载提升,或在同等负载下将中位FTR延迟降低15%,同时将A100 GPU上的端到端延迟降低最多11%。

0
下载
关闭预览

相关内容

AgentOps综述:智能体系统运维框架
专知会员服务
18+阅读 · 6月4日
智能体工程(Agent Engineering)
专知会员服务
36+阅读 · 2025年12月31日
设计和构建强大的大语言模型智能体
专知会员服务
55+阅读 · 2024年10月6日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
面向人工智能的计算机体系结构
计算机研究与发展
14+阅读 · 2019年6月6日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
用Rasa NLU构建自己的中文NLU系统
待字闺中
18+阅读 · 2017年9月18日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员