Mixture-of-Agents (MoA) inference can suffer from dense inter-agent communication and low hardware utilization, which jointly inflate serving latency. We present a serving design that targets these bottlenecks through an algorithm-system co-design. First, we replace dense agent interaction graphs with a hierarchical tree topology that induces structured sparsity in inter-agent communication. Second, we introduce a runtime adaptive mechanism that selectively terminates or skips downstream agent invocations using semantic agreement and confidence signals from intermediate outputs. Third, we pipeline agent execution by overlapping incremental prefilling with decoding across dependency-related agents, improving utilization and reducing inference latency. Across representative tasks, this approach substantially reduces end-to-end latency (up to 90%) while maintaining comparable accuracy (within $\pm$1%) relative to dense-connectivity MoA baselines, and can improve accuracy in certain settings.


翻译:混合智能体(MoA)推理可能面临密集的智能体间通信与低硬件利用率的问题,共同导致服务延迟增加。本文提出一种通过算法-系统协同设计针对这些瓶颈的服务方案。首先,我们将密集的智能体交互图替换为层次化树状拓扑,从而在智能体间通信中引入结构化稀疏性。其次,我们设计了一种运行时自适应机制,利用中间输出的语义一致性与置信度信号,选择性终止或跳过下游智能体的调用。第三,我们通过在有依赖关系的智能体间重叠增量式预填充与解码过程,实现智能体执行的流水线化,从而提升利用率并降低推理延迟。在典型任务上的实验表明,相较于全连接MoA基线,该方法在保持相当准确率(波动在±1%范围内)的同时,显著降低了端到端延迟(最高达90%),并在特定场景下还能提升准确率。

0
下载
关闭预览

相关内容

智能体,顾名思义,就是具有智能的实体,英文名是Agent。
【NVDIA】Cosmos世界基础模型平台用于物理人工智能
专知会员服务
27+阅读 · 2025年1月13日
【AAAI2022】基于对比时空前置学习的视频自监督表示
专知会员服务
20+阅读 · 2021年12月19日
专知会员服务
16+阅读 · 2021年7月7日
专知会员服务
25+阅读 · 2021年6月17日
MonoGRNet:单目3D目标检测的通用框架(TPAMI2021)
专知会员服务
18+阅读 · 2021年5月3日
TKDE 2020 | 面向严格冷启动推荐的属性图神经网络
PaperWeekly
13+阅读 · 2020年12月18日
使用CNN生成图像先验实现场景的盲图像去模糊
统计学习与视觉计算组
10+阅读 · 2018年6月14日
在TensorFlow中对比两大生成模型:VAE与GAN
机器之心
12+阅读 · 2017年10月23日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员