Multi-agent applications often execute complex tasks as multi-stage workflows, where each stage is an LLM call whose output becomes part of context for subsequent steps. Existing LLM serving systems largely assume homogeneous clusters with identical model replicas. This design overlooks the potential of heterogeneous deployments, where models of different sizes and capabilities enable finer trade-offs between latency and performance. However, heterogeneity introduces new challenges in scheduling across models with diverse throughput and performance. We present Chimera, a predictive scheduling system for multi-agent workflow serving on heterogeneous LLM clusters that jointly improves end-to-end latency and task performance. Chimera applies semantic routing to estimate per-model confidence scores for each request, predicts the total remaining output length of the workflow, and estimates per-model congestion using in-flight predicted token volumes for load balancing. We evaluate Chimera on representative agentic workflows for code generation and math reasoning using multiple heterogeneous LLM configurations. Across comparable settings, Chimera traces the best latency-performance frontier, reducing end-to-end latency by 1.2--2.4$\times$ and improving task performance by 8.0-9.5 percentage points on average over competitive baselines including vLLM.


翻译:多智能体应用通常将复杂任务分解为多阶段工作流执行,其中每个阶段对应一次大语言模型调用,其输出结果将作为后续步骤的上下文。现有大语言模型服务系统主要假设同构集群环境,使用相同模型副本。这种设计忽视了异构部署的潜力——通过整合不同规模与能力的大语言模型,可在延迟与性能之间实现更精细的权衡。然而,异构性对跨吞吐量与性能各异的模型进行调度提出了新挑战。本文提出Chimera,一种面向异构大语言模型集群的多智能体工作流预测调度系统,可协同优化端到端延迟与任务性能。Chimera采用语义路由技术估计每个请求在各模型上的置信度分数,预测工作流剩余总输出长度,并通过计算集群中正在处理的预测token负载实现跨模型负载均衡。我们基于多种异构大语言模型配置,在代码生成与数学推理两类典型智能体工作流上对Chimera进行评测。在可比设置下,Chimera实现了最优延迟-性能边界,其端到端延迟较vLLM等竞争基线降低1.2-2.4倍,任务性能平均提升8.0-9.5个百分点。

0
下载
关闭预览

相关内容

多智能体协作机制
专知会员服务
23+阅读 · 4月25日
《多智能体大语言模型系统的可靠决策研究》
专知会员服务
41+阅读 · 2月2日
【EPFL博士论文】大型语言模型时代的协作式智能体
专知会员服务
35+阅读 · 2025年5月16日
大语言模型智能体
专知会员服务
99+阅读 · 2024年12月25日
设计和构建强大的大语言模型智能体
专知会员服务
55+阅读 · 2024年10月6日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
27+阅读 · 2019年9月9日
面向人工智能的计算机体系结构
计算机研究与发展
14+阅读 · 2019年6月6日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
24+阅读 · 2024年2月23日
Arxiv
14+阅读 · 2023年8月7日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员