We introduce the AI Productivity Index for Agents (APEX-Agents), a benchmark for assessing whether AI agents can execute long-horizon, cross-application tasks created by investment banking analysts, management consultants, and corporate lawyers. APEX-Agents requires agents to navigate realistic work environments with files and tools. We test eight agents for the leaderboard using Pass@1. Gemini 3 Flash (Thinking=High) achieves the highest score of 24.0%, followed by GPT-5.2 (Thinking=High), Claude Opus 4.5 (Thinking=High), and Gemini 3 Pro (Thinking=High). We open source the APEX-Agents benchmark (n=480) with all prompts, rubrics, gold outputs, files, and metadata. We also open-source Archipelago, our infrastructure for agent execution and evaluation.


翻译:本文介绍了AI智能体生产力指数基准(APEX-Agents),这是一个用于评估AI智能体能否执行由投资银行分析师、管理顾问和企业律师创建的、具有长周期和跨应用特性的任务的基准。APEX-Agents要求智能体在包含文件与工具的真实工作环境中进行导航操作。我们使用Pass@1指标对排行榜上的八个智能体进行了测试。Gemini 3 Flash(Thinking=High)以24.0%的最高得分位居榜首,其后依次是GPT-5.2(Thinking=High)、Claude Opus 4.5(Thinking=High)和Gemini 3 Pro(Thinking=High)。我们开源了APEX-Agents基准(n=480),包含全部提示、评分标准、标准输出、文件及元数据。同时我们还开源了用于智能体执行与评估的基础设施Archipelago。

0
下载
关闭预览

相关内容

智能体工程(Agent Engineering)
专知会员服务
27+阅读 · 2025年12月31日
Al Agent:AI时代的软件革命
专知会员服务
44+阅读 · 2025年5月13日
AI行业专题报告:工具生态逐步完善,通用Agent曙光已现
专知会员服务
32+阅读 · 2025年3月27日
中国AI Agent行业研究报告(二)
专知会员服务
47+阅读 · 2025年3月13日
人工智能专题报告:Operator和Manus打开AI Agent时代
专知会员服务
61+阅读 · 2025年3月12日
2024中国AI Agent行业研究报告|附60页PDF文件下载
专知会员服务
125+阅读 · 2024年4月30日
AI Agent,大模型时代重要落地方向, 42页ppt
专知会员服务
290+阅读 · 2023年10月12日
AI Agent:基于大模型的自主智能体
专知会员服务
248+阅读 · 2023年9月9日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
人工智能训练师的再定义
竹间智能Emotibot
10+阅读 · 2019年5月15日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Arxiv
0+阅读 · 1月20日
Arxiv
0+阅读 · 1月13日
VIP会员
相关VIP内容
智能体工程(Agent Engineering)
专知会员服务
27+阅读 · 2025年12月31日
Al Agent:AI时代的软件革命
专知会员服务
44+阅读 · 2025年5月13日
AI行业专题报告:工具生态逐步完善,通用Agent曙光已现
专知会员服务
32+阅读 · 2025年3月27日
中国AI Agent行业研究报告(二)
专知会员服务
47+阅读 · 2025年3月13日
人工智能专题报告:Operator和Manus打开AI Agent时代
专知会员服务
61+阅读 · 2025年3月12日
2024中国AI Agent行业研究报告|附60页PDF文件下载
专知会员服务
125+阅读 · 2024年4月30日
AI Agent,大模型时代重要落地方向, 42页ppt
专知会员服务
290+阅读 · 2023年10月12日
AI Agent:基于大模型的自主智能体
专知会员服务
248+阅读 · 2023年9月9日
相关基金
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员