We introduce the AI Productivity Index for Agents (APEX-Agents), a benchmark for assessing whether AI agents can execute long-horizon, cross-application tasks created by investment banking analysts, management consultants, and corporate lawyers. APEX-Agents requires agents to navigate realistic work environments with files and tools. We test eight agents for the leaderboard using Pass@1. Gemini 3 Flash (Thinking=High) achieves the highest score of 24.0%, followed by GPT-5.2 (Thinking=High), Claude Opus 4.5 (Thinking=High), and Gemini 3 Pro (Thinking=High). We open source the APEX-Agents benchmark (n=480) with all prompts, rubrics, gold outputs, files, and metadata. We also open-source Archipelago, our infrastructure for agent execution and evaluation.


翻译:我们提出了AI智能体生产力指数(APEX-Agents),这是一个用于评估AI智能体能否执行由投资银行分析师、管理顾问和企业律师创建的跨应用长周期任务的基准。APEX-Agents要求智能体在包含文件和工具的真实工作环境中进行操作。我们使用Pass@1指标对八个智能体进行了排行榜测试。Gemini 3 Flash(Thinking=High)以24.0%的最高得分位居榜首,其次是GPT-5.2(Thinking=High)、Claude Opus 4.5(Thinking=High)和Gemini 3 Pro(Thinking=High)。我们开源了APEX-Agents基准(n=480),包含所有提示、评分标准、标准输出、文件和元数据。同时我们还开源了用于智能体执行与评估的基础设施Archipelago。

0
下载
关闭预览

相关内容

人工智能杂志AI(Artificial Intelligence)是目前公认的发表该领域最新研究成果的主要国际论坛。该期刊欢迎有关AI广泛方面的论文,这些论文构成了整个领域的进步,也欢迎介绍人工智能应用的论文,但重点应该放在新的和新颖的人工智能方法如何提高应用领域的性能,而不是介绍传统人工智能方法的另一个应用。关于应用的论文应该描述一个原则性的解决方案,强调其新颖性,并对正在开发的人工智能技术进行深入的评估。 官网地址:http://dblp.uni-trier.de/db/journals/ai/
智能体工程(Agent Engineering)
专知会员服务
27+阅读 · 2025年12月31日
Google《AI智能体企业应用手册报告》,46页pdf
专知会员服务
46+阅读 · 2025年12月29日
Al Agent:AI时代的软件革命
专知会员服务
44+阅读 · 2025年5月13日
AI Agent深度(二):2025 Agent元年,AI从L2向L3发展
专知会员服务
39+阅读 · 2025年5月5日
AI行业专题报告:工具生态逐步完善,通用Agent曙光已现
专知会员服务
32+阅读 · 2025年3月27日
中国AI Agent行业研究报告(二)
专知会员服务
47+阅读 · 2025年3月13日
人工智能专题报告:Operator和Manus打开AI Agent时代
专知会员服务
61+阅读 · 2025年3月12日
AI Agent:基于大模型的自主智能体
专知会员服务
248+阅读 · 2023年9月9日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Arxiv
0+阅读 · 1月27日
Arxiv
0+阅读 · 1月13日
VIP会员
相关VIP内容
智能体工程(Agent Engineering)
专知会员服务
27+阅读 · 2025年12月31日
Google《AI智能体企业应用手册报告》,46页pdf
专知会员服务
46+阅读 · 2025年12月29日
Al Agent:AI时代的软件革命
专知会员服务
44+阅读 · 2025年5月13日
AI Agent深度(二):2025 Agent元年,AI从L2向L3发展
专知会员服务
39+阅读 · 2025年5月5日
AI行业专题报告:工具生态逐步完善,通用Agent曙光已现
专知会员服务
32+阅读 · 2025年3月27日
中国AI Agent行业研究报告(二)
专知会员服务
47+阅读 · 2025年3月13日
人工智能专题报告:Operator和Manus打开AI Agent时代
专知会员服务
61+阅读 · 2025年3月12日
AI Agent:基于大模型的自主智能体
专知会员服务
248+阅读 · 2023年9月9日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员