While individual components of agentic architectures have been studied in isolation, there remains limited empirical understanding of how different design dimensions interact within complex multi-agent systems. This study aims to address these gaps by providing a comprehensive enterprise-specific benchmark evaluating 18 distinct agentic configurations across state-of-the-art large language models. We examine four critical agentic system dimensions: orchestration strategy, agent prompt implementation (ReAct versus function calling), memory architecture, and thinking tool integration. Our benchmark reveals significant model-specific architectural preferences that challenge the prevalent one-size-fits-all paradigm in agentic AI systems. It also reveals significant weaknesses in overall agentic performance on enterprise tasks with the highest scoring models achieving a maximum of only 35.3\% success on the more complex task and 70.8\% on the simpler task. We hope these findings inform the design of future agentic systems by enabling more empirically backed decisions regarding architectural components and model selection.


翻译:尽管智能体架构的各个组件已在孤立环境中得到研究,但关于不同设计维度在复杂多智能体系统中如何相互作用的实证认知仍然有限。本研究旨在通过构建面向企业场景的综合评估基准来填补这一空白,该基准覆盖18种不同的智能体配置,并基于前沿大语言模型进行评估。我们考察了智能体系统的四个关键维度:协同调度策略、智能体提示实现方式(ReAct与函数调用对比)、记忆架构以及思维工具集成。我们的基准测试揭示了显著的模型特异性架构偏好,这对当前智能体人工智能系统中普遍存在的“一刀切”范式提出了挑战。同时,研究还发现智能体在企业任务上的整体表现存在明显不足:在更复杂的任务中得分最高的模型成功率最高仅为35.3%,而在较简单任务中也仅达到70.8%。我们期望这些发现能为未来智能体系统的设计提供参考,通过在架构组件和模型选择方面提供更多实证依据来支持决策制定。

0
下载
关闭预览

相关内容

智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
AI 智能体系统:体系架构、应用场景及评估范式
智能体工程(Agent Engineering)
专知会员服务
27+阅读 · 2025年12月31日
AgentOps综述:分类、挑战与未来方向
专知会员服务
38+阅读 · 2025年8月6日
大语言模型智能体的评估与基准:综述
专知会员服务
46+阅读 · 2025年7月31日
Agent AI:多模态交互的新地平线
专知会员服务
21+阅读 · 2025年5月26日
AI专题·Agent:智能体基建厚积薄发,商业化应用曙光乍现
国家标准《物联网 群智感知 技术架构》(征求 意见稿)
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
【数据中台】数据中台技术架构方案
产业智能官
15+阅读 · 2020年5月26日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
面向人工智能的计算机体系结构
计算机研究与发展
14+阅读 · 2019年6月6日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
【知识图谱】知识图谱+人工智能=新型网络信息体系
产业智能官
14+阅读 · 2018年11月18日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Measuring Agents in Production
Arxiv
0+阅读 · 2月3日
Arxiv
0+阅读 · 1月30日
VIP会员
相关VIP内容
智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
AI 智能体系统:体系架构、应用场景及评估范式
智能体工程(Agent Engineering)
专知会员服务
27+阅读 · 2025年12月31日
AgentOps综述:分类、挑战与未来方向
专知会员服务
38+阅读 · 2025年8月6日
大语言模型智能体的评估与基准:综述
专知会员服务
46+阅读 · 2025年7月31日
Agent AI:多模态交互的新地平线
专知会员服务
21+阅读 · 2025年5月26日
AI专题·Agent:智能体基建厚积薄发,商业化应用曙光乍现
国家标准《物联网 群智感知 技术架构》(征求 意见稿)
相关资讯
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
【数据中台】数据中台技术架构方案
产业智能官
15+阅读 · 2020年5月26日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
面向人工智能的计算机体系结构
计算机研究与发展
14+阅读 · 2019年6月6日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
【知识图谱】知识图谱+人工智能=新型网络信息体系
产业智能官
14+阅读 · 2018年11月18日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员