通用智能体(即无需领域特定工程即可在陌生环境中执行任务的系统)的愿景在很大程度上仍未实现。目前的智能体主要以专用型为主,尽管 OpenAI SDK Solo Agent 和 Claude Code 等新兴实现方案展示了更广泛能力的雏形,但尚未有人对其通用性能进行系统性评估。现有的智能体基准测试通常假定存在领域特定的集成,其任务信息的编码方式阻碍了对通用智能体的公平评价。 本文将通用智能体评估确立为一项核心研究目标(First-class research objective)。我们提出了此类评估的概念性原则、一种支持智能体与基准测试集成的“统一协议”(Unified Protocol),以及一个名为 Exgentic 的通用智能体评估实用框架。我们在六个环境中对五种主流智能体实现进行了基准测试,建立了首个“开放通用智能体排行榜”(Open General Agent Leaderboard)。实验结果表明,通用智能体具备跨多元环境的泛化能力,在无需任何环境特定调优的情况下,其性能可与领域专用智能体相媲美。 为奠定通用智能体系统化研究的基础,我们开源了评估协议、框架及排行榜:www.exgentic.ai。

1. 引言 (Introduction)

AI 智能体领域已取得显著进展,智能体系统在从软件工程任务处理到 Web 界面导航的多个领域展现出令人印象深刻的能力 (Zhang et al., 2024; Deng et al., 2023)。然而,目前的进展很大程度上依赖于领域专业化和手动调优;相比之下,异构的现实世界场景则需要无需此类手动定制即可实现规模化部署的通用智能体 (c.f., Marreed et al., 2025; Bandel et al., 2026)。 尽管通用智能体至关重要,但当前的评估实践无法对其能力进行充分评估。现有的智能体基准测试,如 SWE-Bench Verified (Jimenez et al., 2023) 和 $\tau^2$-Bench (Yao et al., 2024),虽为领域特定智能体提供了宝贵的评估,但它们存在的两项约束阻碍了通用智能体评估:首先,它们使用定制化的通信协议 (Anonymous, 2026);其次,它们隐式地假设智能体预先掌握了基准测试特定的目标和环境语义。 近期的整合工作,如 BrowserGym (Chezelles et al., 2025) 和 Harbor (Shaw, 2025),通过向智能体暴露当前目标和环境语义,在单一领域内集成了多个基准测试(见图 2(B))。尽管这迈出了一步,但这些框架仍强制执行单一协议(BrowserGym 为基于 Web 的协议,Harbor 为基于 CLI 的协议),这限制了智能体使用其原生集成机制,实际上评估的是智能体的“阉割版本” (Yehudai et al., 2025)。 我们将通用 AI 智能体作为研究目标,提出了一种具体的评估方法,并首次对跨多元环境的通用智能体进行了系统性分析(见图 3)。具体而言,本文的贡献有三个方面: 1. 提出统一协议(Unified Protocol):这是一种基准测试与智能体之间的中继协议(见图 2(C))。该协议通过规范化的任务表示,桥接了智能体接口(如 CLI、工具调用 API、MCP)与基准测试之间的通信,实现了评估过程与领域特定实现及通信协议的解耦。 1. 发布 Exgentic 评估框架:基于统一协议,我们发布了 Exgentic。这是一个针对通用智能体的评估工具集,支持模块化深度分析——包括架构对比、语言模型影响分析以及智能体-模型配对优化。 1. 建立开放通用智能体排行榜(Open General Agent Leaderboard):运行 Exgentic 框架,我们提出了首个公开的开放通用智能体排行榜以引导该领域开发,总计评估成本为 2.2 万美元(见表 1)。

我们对该排行榜的分析凸显了当代通用智能体的能力与局限。虽然这些智能体展现了显著的跨领域泛化能力——其性能通常与领域优化的基准线持平——但其成功主要由底层语言模型决定(见图 1)。相反,不同的智能体脚手架(Agentic Scaffolds)表现出相近的性能,但在成本上存在巨大差异。这些发现共同指明了通用智能体的潜力。 最后,推进通用智能体需要集体努力。我们希望“开放通用智能体排行榜”能成为超越单一任务方法的催化剂,并邀请研究社区通过贡献具有泛化挑战性的基准测试和新型评估协议来扩展这一生态系统。

成为VIP会员查看完整内容
1

相关内容

智能体,顾名思义,就是具有智能的实体,英文名是Agent。
AI 智能体系统:体系架构、应用场景及评估范式
智能体工程(Agent Engineering)
专知会员服务
28+阅读 · 2025年12月31日
迈向智能体系统规模化的科学
专知会员服务
20+阅读 · 2025年12月12日
智能体适应
专知会员服务
22+阅读 · 2025年12月11日
智能体化多模态大语言模型综述
专知会员服务
38+阅读 · 2025年10月14日
AI智能体基础设施
专知会员服务
39+阅读 · 2025年7月12日
通用型虚拟智能体:关于跨数字平台自主智能体的综述
专知会员服务
35+阅读 · 2024年11月20日
集成智能系统评价框架与应用研究
专知会员服务
68+阅读 · 2023年9月13日
重磅!AI框架发展白皮书(2022年),44页pdf
专知
28+阅读 · 2022年2月27日
【类脑智能】类脑智能技术初探
产业智能官
15+阅读 · 2020年2月16日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
26+阅读 · 2019年9月9日
面向人工智能的计算机体系结构
计算机研究与发展
14+阅读 · 2019年6月6日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
【混合智能】人机混合智能的哲学思考
产业智能官
12+阅读 · 2018年10月28日
赛尔原创 | 对话系统评价方法综述
哈工大SCIR
11+阅读 · 2017年11月13日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Measuring Agents in Production
Arxiv
0+阅读 · 2月3日
Arxiv
0+阅读 · 1月30日
VIP会员
相关VIP内容
AI 智能体系统:体系架构、应用场景及评估范式
智能体工程(Agent Engineering)
专知会员服务
28+阅读 · 2025年12月31日
迈向智能体系统规模化的科学
专知会员服务
20+阅读 · 2025年12月12日
智能体适应
专知会员服务
22+阅读 · 2025年12月11日
智能体化多模态大语言模型综述
专知会员服务
38+阅读 · 2025年10月14日
AI智能体基础设施
专知会员服务
39+阅读 · 2025年7月12日
通用型虚拟智能体:关于跨数字平台自主智能体的综述
专知会员服务
35+阅读 · 2024年11月20日
集成智能系统评价框架与应用研究
专知会员服务
68+阅读 · 2023年9月13日
相关资讯
重磅!AI框架发展白皮书(2022年),44页pdf
专知
28+阅读 · 2022年2月27日
【类脑智能】类脑智能技术初探
产业智能官
15+阅读 · 2020年2月16日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
26+阅读 · 2019年9月9日
面向人工智能的计算机体系结构
计算机研究与发展
14+阅读 · 2019年6月6日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
【混合智能】人机混合智能的哲学思考
产业智能官
12+阅读 · 2018年10月28日
赛尔原创 | 对话系统评价方法综述
哈工大SCIR
11+阅读 · 2017年11月13日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员