Scaling Enterprise Agent Routing: Degradation, Diagnosis, and Recovery - 专知论文

会员服务 ·

0

工具 · 性能退化 · 退化 · 标注 · 包含 ·

Scaling Enterprise Agent Routing: Degradation, Diagnosis, and Recovery

翻译：扩展企业代理路由：性能退化、诊断与恢复

Kellen Gillespie,Robyn Perry

from arxiv, 10 pages (6 main + 4 appendix), 4 figures, 6 tables

Production LLM assistants route user requests to growing libraries of specialized tools, but how does routing accuracy degrade as the catalog scales? We study single-step routing on a 110-agent, 584-tool catalog from a deployed enterprise productivity assistant, evaluating three frontier models from 10 to 110 agents. Routing F1 on under-specified requests drops 16--23 percentage points across models. An oracle analysis decomposes the degradation into a \emph{retrieval} gap (the model cannot surface the right tool) and a \emph{confusion} gap (even with perfect retrieval, the oracle ceiling drops 10pp). Embedding-based shortlisting recovers +10--11pp F1 at full scale across all three models and two providers. A production annotation study (1,435 human-labeled utterances, three annotators) confirms the recovery on real traffic at +10--17pp despite 10--15pp lower absolute performance.

翻译：生产级大语言模型助手将用户请求路由到日益庞大的专业化工具库中，但路由准确度如何随工具目录扩展而下降？我们基于已部署的企业生产力助手（包含110个代理、584个工具目录）研究单步路由，评估了从10到110个代理的三种前沿模型。在未充分指定请求上，各模型的路由F1值下降16-23个百分点。通过预言机分析，我们将性能退化分解为检索差距（模型无法浮现正确工具）与混淆差距（即使完美检索，预言机天花板仍下降10个百分点）。基于嵌入的预筛选在全部规模下为三种模型及两家提供商恢复+10-11个百分点的F1值。生产标注研究（1,435条人工标注语句，三位标注员）证实，尽管绝对性能降低10-15个百分点，该恢复方法在真实流量中仍提升10-17个百分点。

0

相关内容

代码即代理基础设施：迈向可执行、可验证、有状态的AI代理系统

代码即代理基础设施：迈向可执行、可验证、有状态的AI代理系统

专知会员服务

17+阅读 · 5月20日

大规模语言模型在自主化网络运维与智能运维中的应用：架构、评估与安全性

大规模语言模型在自主化网络运维与智能运维中的应用：架构、评估与安全性

专知会员服务

13+阅读 · 5月18日

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

专知会员服务

29+阅读 · 4月6日

大语言模型高效推理中的动态模型路由与级联技术综述

大语言模型高效推理中的动态模型路由与级联技术综述

专知会员服务

14+阅读 · 3月6日

最新新Agent综述！76页327篇论文梳理，北交大桑基韬教授团队发布《迈向模型原生智能体式人工智能的范式转变综述》

最新新Agent综述！76页327篇论文梳理，北交大桑基韬教授团队发布《迈向模型原生智能体式人工智能的范式转变综述》

专知会员服务

41+阅读 · 2025年10月17日

AI Agent，大模型时代重要落地方向, 42页ppt

AI Agent，大模型时代重要落地方向, 42页ppt

专知会员服务

291+阅读 · 2023年10月12日

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

专知会员服务

170+阅读 · 2023年9月15日

深度学习在路由问题中的最新进展

深度学习在路由问题中的最新进展

专知会员服务

19+阅读 · 2022年3月6日

【CVPR2020-Oral-计算所-旷视】学习用于语义分割的动态路由，Learning Dynamic Routing

【CVPR2020-Oral-计算所-旷视】学习用于语义分割的动态路由，Learning Dynamic Routing

专知会员服务

27+阅读 · 2020年3月24日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

专知

15+阅读 · 2022年7月22日

2019-2024预测性维护市场展望：180家企业并进，9种类型齐头，竞争激烈……

2019-2024预测性维护市场展望：180家企业并进，9种类型齐头，竞争激烈……

物联网智库

31+阅读 · 2019年10月14日

【预测性维护】预测性维护是边缘计算与人工智能，在工业落地的最短路径？

【预测性维护】预测性维护是边缘计算与人工智能，在工业落地的最短路径？

产业智能官

14+阅读 · 2019年5月5日

实战▍一个完整的电信客服分析平台大数据项目：架构、实现、数据

实战▍一个完整的电信客服分析平台大数据项目：架构、实现、数据

36大数据

13+阅读 · 2019年3月20日

微软重磅开源Recommenders：企业级可扩展推荐系统实践指南

微软重磅开源Recommenders：企业级可扩展推荐系统实践指南

AI前线

46+阅读 · 2019年2月25日

【工业大数据】工业大数据始于业务止于业务、车间物联网数据管理、面向产品全寿期的xBOM、构建制造型企业新型能力

【工业大数据】工业大数据始于业务止于业务、车间物联网数据管理、面向产品全寿期的xBOM、构建制造型企业新型能力

产业智能官

12+阅读 · 2018年10月22日

【计划排程】工业互联网正确打开方式系列（十三）：排程调度优化

【计划排程】工业互联网正确打开方式系列（十三）：排程调度优化

产业智能官

24+阅读 · 2018年9月12日

【预测性维护】工业互联网正确打开方式系列（九）：预测性维护

【预测性维护】工业互联网正确打开方式系列（九）：预测性维护

产业智能官

35+阅读 · 2018年9月6日

深度学习的目标检测技术演进：R-CNN、Fast R-CNN、Faster R-CNN

深度学习的目标检测技术演进：R-CNN、Fast R-CNN、Faster R-CNN

数据挖掘入门与实战

13+阅读 · 2018年4月6日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

海量机器类终端同步入网性能分析与接入控制

国家自然科学基金

0+阅读 · 2015年12月31日

数据驱动关键性能指标相关的故障诊断方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

多路径通信网络关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

缓存路由器存储架构及其关键技术的研究

国家自然科学基金

0+阅读 · 2015年12月31日

通信网络在不确定业务流量需求下的路由鲁棒性优化研究

国家自然科学基金

1+阅读 · 2015年12月31日

互连网络条件路覆盖与综合诊断策略下的故障诊断性研究

国家自然科学基金

0+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

基于合作博弈的互联网域间多路径路由关键技术研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于分布式词元编码的大规模名字路由表压缩与查找技术的研究

国家自然科学基金

0+阅读 · 2014年12月31日

DecoSearch: Complexity-Aware Routing and Plan-Level Repair for Text-to-SQL

Arxiv

0+阅读 · 6月16日

Beyond Domains: Reusing Web Skills via Transferable Interaction Patterns

Arxiv

0+阅读 · 6月16日

RISE: Relay Inference and Online Scheduling for Efficient Edge-Device Collaborative Diffusion Model Services

Arxiv

0+阅读 · 6月16日

Distributed General-Purpose Agent Networks: Architecture, Key Mechanisms, and Prototypes

Arxiv

0+阅读 · 6月15日

The Proxy Knows Too Much: Sealing LLM API Routers with Attested TEEs

Arxiv

0+阅读 · 6月15日

Building Customer Support AI Agents at 100M-User Scale: An Evaluation-Driven Framework

Arxiv

0+阅读 · 6月13日

Contract2Tool: Learning Preconditions and Effects for Reliable Tool-Augmented LLM Agents

Arxiv

0+阅读 · 6月5日

Stateful Online Monitoring Catches Distributed Agent Attacks

Arxiv

0+阅读 · 5月29日

OptiLoop: Coordination-in-the-Loop Verification and Repair for LLM-Generated Optimization Agents

Arxiv

0+阅读 · 5月26日

Dynamic Mixed-Precision Routing for Efficient Multi-step LLM Interaction

Arxiv

0+阅读 · 5月14日

VIP会员

文章信息

相关主题

最新内容

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

4+阅读 · 今天8:00

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

2+阅读 · 今天7:44

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

2+阅读 · 今天7:28

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

3+阅读 · 今天7:18

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

4+阅读 · 今天7:07

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

3+阅读 · 今天7:03

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

4+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

5+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

10+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

4+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

5+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

8+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

7+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

4+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

相关VIP内容

代码即代理基础设施：迈向可执行、可验证、有状态的AI代理系统

代码即代理基础设施：迈向可执行、可验证、有状态的AI代理系统

专知会员服务

17+阅读 · 5月20日

大规模语言模型在自主化网络运维与智能运维中的应用：架构、评估与安全性

大规模语言模型在自主化网络运维与智能运维中的应用：架构、评估与安全性

专知会员服务

13+阅读 · 5月18日

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

专知会员服务

29+阅读 · 4月6日

大语言模型高效推理中的动态模型路由与级联技术综述

大语言模型高效推理中的动态模型路由与级联技术综述

专知会员服务

14+阅读 · 3月6日

最新新Agent综述！76页327篇论文梳理，北交大桑基韬教授团队发布《迈向模型原生智能体式人工智能的范式转变综述》

最新新Agent综述！76页327篇论文梳理，北交大桑基韬教授团队发布《迈向模型原生智能体式人工智能的范式转变综述》

专知会员服务

41+阅读 · 2025年10月17日

AI Agent，大模型时代重要落地方向, 42页ppt

AI Agent，大模型时代重要落地方向, 42页ppt

专知会员服务

291+阅读 · 2023年10月12日

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

专知会员服务

170+阅读 · 2023年9月15日

深度学习在路由问题中的最新进展

深度学习在路由问题中的最新进展

专知会员服务

19+阅读 · 2022年3月6日

【CVPR2020-Oral-计算所-旷视】学习用于语义分割的动态路由，Learning Dynamic Routing

【CVPR2020-Oral-计算所-旷视】学习用于语义分割的动态路由，Learning Dynamic Routing

专知会员服务

27+阅读 · 2020年3月24日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

热门VIP内容

开通专知VIP会员享更多权益服务

重新思考无人机时代的生存能力

在人工智能加速决策环境中拓展OODA循环

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

装甲突击旅：现代战争思考、战斗与组织

相关资讯

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

专知

15+阅读 · 2022年7月22日

2019-2024预测性维护市场展望：180家企业并进，9种类型齐头，竞争激烈……

2019-2024预测性维护市场展望：180家企业并进，9种类型齐头，竞争激烈……

物联网智库

31+阅读 · 2019年10月14日

【预测性维护】预测性维护是边缘计算与人工智能，在工业落地的最短路径？

【预测性维护】预测性维护是边缘计算与人工智能，在工业落地的最短路径？

产业智能官

14+阅读 · 2019年5月5日

实战▍一个完整的电信客服分析平台大数据项目：架构、实现、数据

实战▍一个完整的电信客服分析平台大数据项目：架构、实现、数据

36大数据

13+阅读 · 2019年3月20日

微软重磅开源Recommenders：企业级可扩展推荐系统实践指南

微软重磅开源Recommenders：企业级可扩展推荐系统实践指南

AI前线

46+阅读 · 2019年2月25日

【工业大数据】工业大数据始于业务止于业务、车间物联网数据管理、面向产品全寿期的xBOM、构建制造型企业新型能力

【工业大数据】工业大数据始于业务止于业务、车间物联网数据管理、面向产品全寿期的xBOM、构建制造型企业新型能力

产业智能官

12+阅读 · 2018年10月22日

【计划排程】工业互联网正确打开方式系列（十三）：排程调度优化

【计划排程】工业互联网正确打开方式系列（十三）：排程调度优化

产业智能官

24+阅读 · 2018年9月12日

【预测性维护】工业互联网正确打开方式系列（九）：预测性维护

【预测性维护】工业互联网正确打开方式系列（九）：预测性维护

产业智能官

35+阅读 · 2018年9月6日

深度学习的目标检测技术演进：R-CNN、Fast R-CNN、Faster R-CNN

深度学习的目标检测技术演进：R-CNN、Fast R-CNN、Faster R-CNN

数据挖掘入门与实战

13+阅读 · 2018年4月6日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

相关论文

DecoSearch: Complexity-Aware Routing and Plan-Level Repair for Text-to-SQL

Arxiv

0+阅读 · 6月16日

Beyond Domains: Reusing Web Skills via Transferable Interaction Patterns

Arxiv

0+阅读 · 6月16日

RISE: Relay Inference and Online Scheduling for Efficient Edge-Device Collaborative Diffusion Model Services

Arxiv

0+阅读 · 6月16日

Distributed General-Purpose Agent Networks: Architecture, Key Mechanisms, and Prototypes

Arxiv

0+阅读 · 6月15日

The Proxy Knows Too Much: Sealing LLM API Routers with Attested TEEs

Arxiv

0+阅读 · 6月15日

Building Customer Support AI Agents at 100M-User Scale: An Evaluation-Driven Framework

Arxiv

0+阅读 · 6月13日

Contract2Tool: Learning Preconditions and Effects for Reliable Tool-Augmented LLM Agents

Arxiv

0+阅读 · 6月5日

Stateful Online Monitoring Catches Distributed Agent Attacks

Arxiv

0+阅读 · 5月29日

OptiLoop: Coordination-in-the-Loop Verification and Repair for LLM-Generated Optimization Agents

Arxiv

0+阅读 · 5月26日

Dynamic Mixed-Precision Routing for Efficient Multi-step LLM Interaction

Arxiv

0+阅读 · 5月14日

相关基金

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

海量机器类终端同步入网性能分析与接入控制

国家自然科学基金

0+阅读 · 2015年12月31日

数据驱动关键性能指标相关的故障诊断方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

多路径通信网络关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

缓存路由器存储架构及其关键技术的研究

国家自然科学基金

0+阅读 · 2015年12月31日

通信网络在不确定业务流量需求下的路由鲁棒性优化研究

国家自然科学基金

1+阅读 · 2015年12月31日

互连网络条件路覆盖与综合诊断策略下的故障诊断性研究

国家自然科学基金

0+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

基于合作博弈的互联网域间多路径路由关键技术研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于分布式词元编码的大规模名字路由表压缩与查找技术的研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员