AgentArch：面向企业环境的智能体架构综合评估基准 (AgentArch: A Comprehensive Benchmark to Evaluate Agent Architectures in Enterprise) - 专知论文

会员服务 ·

0

基准 · 系统 · 智能体 · 智能体系统 · 设计 ·

AgentArch: A Comprehensive Benchmark to Evaluate Agent Architectures in Enterprise

翻译：AgentArch：面向企业环境的智能体架构综合评估基准

Tara Bogavelli,Roshnee Sharma,Hari Subramani

While individual components of agentic architectures have been studied in isolation, there remains limited empirical understanding of how different design dimensions interact within complex multi-agent systems. This study aims to address these gaps by providing a comprehensive enterprise-specific benchmark evaluating 18 distinct agentic configurations across state-of-the-art large language models. We examine four critical agentic system dimensions: orchestration strategy, agent prompt implementation (ReAct versus function calling), memory architecture, and thinking tool integration. Our benchmark reveals significant model-specific architectural preferences that challenge the prevalent one-size-fits-all paradigm in agentic AI systems. It also reveals significant weaknesses in overall agentic performance on enterprise tasks with the highest scoring models achieving a maximum of only 35.3\% success on the more complex task and 70.8\% on the simpler task. We hope these findings inform the design of future agentic systems by enabling more empirically backed decisions regarding architectural components and model selection.

翻译：尽管智能体架构的各个组件已在孤立环境中得到研究，但关于不同设计维度在复杂多智能体系统中如何相互作用的实证认知仍然有限。本研究旨在通过构建面向企业场景的综合评估基准来填补这一空白，该基准覆盖18种不同的智能体配置，并基于前沿大语言模型进行评估。我们考察了智能体系统的四个关键维度：协同调度策略、智能体提示实现方式（ReAct与函数调用对比）、记忆架构以及思维工具集成。我们的基准测试揭示了显著的模型特异性架构偏好，这对当前智能体人工智能系统中普遍存在的“一刀切”范式提出了挑战。同时，研究还发现智能体在企业任务上的整体表现存在明显不足：在更复杂的任务中得分最高的模型成功率最高仅为35.3%，而在较简单任务中也仅达到70.8%。我们期望这些发现能为未来智能体系统的设计提供参考，通过在架构组件和模型选择方面提供更多实证依据来支持决策制定。

0

相关内容

智能体评判者（Agent-as-a-Judge）研究综述

智能体评判者（Agent-as-a-Judge）研究综述

专知会员服务

37+阅读 · 1月9日

AI 智能体系统：体系架构、应用场景及评估范式

AI 智能体系统：体系架构、应用场景及评估范式

专知会员服务

57+阅读 · 1月6日

智能体 AI (Agentic AI) 的新进展：回归初心，预见未来

智能体 AI (Agentic AI) 的新进展：回归初心，预见未来

专知会员服务

26+阅读 · 1月2日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

27+阅读 · 2025年12月31日

AgentOps综述：分类、挑战与未来方向

AgentOps综述：分类、挑战与未来方向

专知会员服务

38+阅读 · 2025年8月6日

大语言模型智能体的评估与基准：综述

大语言模型智能体的评估与基准：综述

专知会员服务

46+阅读 · 2025年7月31日

Agent AI：多模态交互的新地平线

Agent AI：多模态交互的新地平线

专知会员服务

21+阅读 · 2025年5月26日

AI专题·Agent：智能体基建厚积薄发，商业化应用曙光乍现

AI专题·Agent：智能体基建厚积薄发，商业化应用曙光乍现

专知会员服务

29+阅读 · 2025年4月24日

国家标准《物联网群智感知技术架构》（征求意见稿）

国家标准《物联网群智感知技术架构》（征求意见稿）

专知会员服务

38+阅读 · 2024年6月24日

多模态智能体AI开启新浪潮！李飞飞等14位斯坦福微软大牛等撰写 80页《AGENT AI: 综述多模态交互的前沿展望》

多模态智能体AI开启新浪潮！李飞飞等14位斯坦福微软大牛等撰写 80页《AGENT AI: 综述多模态交互的前沿展望》

专知会员服务

202+阅读 · 2024年1月9日

面向多智能体博弈对抗的对手建模框架

面向多智能体博弈对抗的对手建模框架

专知

18+阅读 · 2022年9月28日

【数据中台】数据中台技术架构方案

【数据中台】数据中台技术架构方案

产业智能官

15+阅读 · 2020年5月26日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

面向人工智能的计算机体系结构

面向人工智能的计算机体系结构

计算机研究与发展

14+阅读 · 2019年6月6日

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

产业智能官

16+阅读 · 2019年4月22日

基于车路协同的群体智能协同

基于车路协同的群体智能协同

智能交通技术

10+阅读 · 2019年1月23日

【知识图谱】知识图谱+人工智能=新型网络信息体系

【知识图谱】知识图谱+人工智能=新型网络信息体系

产业智能官

14+阅读 · 2018年11月18日

【智能制造】智能工厂顶层设计和整体规划、智能工厂总体规划与建设

【智能制造】智能工厂顶层设计和整体规划、智能工厂总体规划与建设

产业智能官

23+阅读 · 2018年10月12日

【智能制造】见识一下某航空企业的智能制造技术架构！

【智能制造】见识一下某航空企业的智能制造技术架构！

产业智能官

13+阅读 · 2017年12月7日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

随机环境下多个体系统集体行为分析、调控与优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

46+阅读 · 2015年12月31日

基于动态增益非线性干扰观测器的多智能体系统协调跟踪和干扰抑制

国家自然科学基金

1+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于agent与众包数据获取服务的企业决策支持关键方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

20+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

Measuring Agents in Production

Measuring Agents in Production

Arxiv

0+阅读 · 2月3日

Agent Primitives: Reusable Latent Building Blocks for Multi-Agent Systems

Arxiv

0+阅读 · 2月3日

OmniCode: A Benchmark for Evaluating Software Engineering Agents

Arxiv

0+阅读 · 2月2日

Measuring Agents in Production

Arxiv

0+阅读 · 1月30日

AgentIF-OneDay: A Task-level Instruction-Following Benchmark for General AI Agents in Daily Scenarios

Arxiv

0+阅读 · 1月30日

Dr. Bench: A Multidimensional Evaluation for Deep Research Agents, from Answers to Reports

Arxiv

0+阅读 · 1月29日

AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment Rollouts

Arxiv

0+阅读 · 1月29日

Toward Architecture-Aware Evaluation Metrics for LLM Agents

Arxiv

1+阅读 · 1月27日

Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces

Arxiv

0+阅读 · 1月17日

AgentOrchestra: Orchestrating Multi-Agent Intelligence with the Tool-Environment-Agent(TEA) Protocol

Arxiv

0+阅读 · 1月11日

VIP会员

文章信息

相关主题

智能体系统

相关VIP内容

智能体评判者（Agent-as-a-Judge）研究综述

智能体评判者（Agent-as-a-Judge）研究综述

专知会员服务

37+阅读 · 1月9日

AI 智能体系统：体系架构、应用场景及评估范式

AI 智能体系统：体系架构、应用场景及评估范式

专知会员服务

57+阅读 · 1月6日

智能体 AI (Agentic AI) 的新进展：回归初心，预见未来

智能体 AI (Agentic AI) 的新进展：回归初心，预见未来

专知会员服务

26+阅读 · 1月2日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

27+阅读 · 2025年12月31日

AgentOps综述：分类、挑战与未来方向

AgentOps综述：分类、挑战与未来方向

专知会员服务

38+阅读 · 2025年8月6日

大语言模型智能体的评估与基准：综述

大语言模型智能体的评估与基准：综述

专知会员服务

46+阅读 · 2025年7月31日

Agent AI：多模态交互的新地平线

Agent AI：多模态交互的新地平线

专知会员服务

21+阅读 · 2025年5月26日

AI专题·Agent：智能体基建厚积薄发，商业化应用曙光乍现

AI专题·Agent：智能体基建厚积薄发，商业化应用曙光乍现

专知会员服务

29+阅读 · 2025年4月24日

国家标准《物联网群智感知技术架构》（征求意见稿）

国家标准《物联网群智感知技术架构》（征求意见稿）

专知会员服务

38+阅读 · 2024年6月24日

多模态智能体AI开启新浪潮！李飞飞等14位斯坦福微软大牛等撰写 80页《AGENT AI: 综述多模态交互的前沿展望》

多模态智能体AI开启新浪潮！李飞飞等14位斯坦福微软大牛等撰写 80页《AGENT AI: 综述多模态交互的前沿展望》

专知会员服务

202+阅读 · 2024年1月9日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人机与战争：被忽视的环境影响及无人机保护潜力》

俄罗斯规划未来无人机驱动军队

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

《人工智能、武器与影响力：前沿模型在模拟核危机中展现复杂推理》2026最新46页报告

相关资讯

面向多智能体博弈对抗的对手建模框架

面向多智能体博弈对抗的对手建模框架

专知

18+阅读 · 2022年9月28日

【数据中台】数据中台技术架构方案

【数据中台】数据中台技术架构方案

产业智能官

15+阅读 · 2020年5月26日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

面向人工智能的计算机体系结构

面向人工智能的计算机体系结构

计算机研究与发展

14+阅读 · 2019年6月6日

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

产业智能官

16+阅读 · 2019年4月22日

基于车路协同的群体智能协同

基于车路协同的群体智能协同

智能交通技术

10+阅读 · 2019年1月23日

【知识图谱】知识图谱+人工智能=新型网络信息体系

【知识图谱】知识图谱+人工智能=新型网络信息体系

产业智能官

14+阅读 · 2018年11月18日

【智能制造】智能工厂顶层设计和整体规划、智能工厂总体规划与建设

【智能制造】智能工厂顶层设计和整体规划、智能工厂总体规划与建设

产业智能官

23+阅读 · 2018年10月12日

【智能制造】见识一下某航空企业的智能制造技术架构！

【智能制造】见识一下某航空企业的智能制造技术架构！

产业智能官

13+阅读 · 2017年12月7日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

相关论文

Measuring Agents in Production

Measuring Agents in Production

Arxiv

0+阅读 · 2月3日

Agent Primitives: Reusable Latent Building Blocks for Multi-Agent Systems

Arxiv

0+阅读 · 2月3日

OmniCode: A Benchmark for Evaluating Software Engineering Agents

Arxiv

0+阅读 · 2月2日

Measuring Agents in Production

Arxiv

0+阅读 · 1月30日

AgentIF-OneDay: A Task-level Instruction-Following Benchmark for General AI Agents in Daily Scenarios

Arxiv

0+阅读 · 1月30日

Dr. Bench: A Multidimensional Evaluation for Deep Research Agents, from Answers to Reports

Arxiv

0+阅读 · 1月29日

AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment Rollouts

Arxiv

0+阅读 · 1月29日

Toward Architecture-Aware Evaluation Metrics for LLM Agents

Arxiv

1+阅读 · 1月27日

Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces

Arxiv

0+阅读 · 1月17日

AgentOrchestra: Orchestrating Multi-Agent Intelligence with the Tool-Environment-Agent(TEA) Protocol

Arxiv

0+阅读 · 1月11日

相关基金

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

随机环境下多个体系统集体行为分析、调控与优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

46+阅读 · 2015年12月31日

基于动态增益非线性干扰观测器的多智能体系统协调跟踪和干扰抑制

国家自然科学基金

1+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于agent与众包数据获取服务的企业决策支持关键方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

20+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员