APEX-SWE - 专知论文

会员服务 ·

0

软件 · 软件工程 · 人工智能 · 基准 · 新型 ·

翻译：APEX-SWE：人工智能软件工程生产力指数

Abhi Kottamasu,Akul Datta,Aakash Barthwal,Chirag Mahapatra,Ajay Arun,Adarsh Hiremath,Brendan Foody,Bertie Vidgen

We introduce the AI Productivity Index for Software Engineering (APEX-SWE), a benchmark for assessing whether frontier AI models can execute economically valuable software engineering work. Unlike existing evaluations that focus on narrow, well-defined tasks, APEX-SWE assesses two novel task types that reflect real-world software engineering work: (1) Integration tasks (n=100), which require constructing end-to-end systems across heterogeneous cloud primitives, business applications, and infrastructure-as-code services, and (2) Observability tasks (n=100), which require debugging production failures using telemetry signals such as logs and dashboards, as well as unstructured context. We evaluated eight frontier models on APEX-SWE. Gemini 3 Pro (Thinking = High) performs best, with a Pass@1 score of 25\%. Our analysis shows that strong performance is primarily driven by epistemic reasoning, defined as the ability to distinguish between assumptions and verified facts, combined with agency to resolve uncertainty prior to acting. We open-source the APEX-SWE evaluation harness and a dev set (n=50).

翻译：我们提出了人工智能软件工程生产力指数（APEX-SWE），这是一个用于评估前沿人工智能模型能否执行具有经济价值的软件工程工作的基准。与现有专注于狭窄、明确定义任务的评估不同，APEX-SWE评估了两种反映现实世界软件工程工作的新型任务类型：（1）集成任务（n=100），要求跨异构云原语、业务应用和基础设施即代码服务构建端到端系统；以及（2）可观测性任务（n=100），要求使用日志和仪表板等遥测信号以及非结构化上下文来调试生产故障。我们在APEX-SWE上评估了八个前沿模型。Gemini 3 Pro（Thinking = High）表现最佳，其Pass@1得分为25%。我们的分析表明，强劲的性能主要由认知推理能力驱动，该能力定义为区分假设与已验证事实的能力，并结合了在行动前解决不确定性的能动性。我们开源了APEX-SWE评估框架和一个开发集（n=50）。

0

相关内容

软件（中国大陆及香港用语，台湾作软体，英文：Software）是一系列按照特定顺序组织的计算机数据和指令的集合。一般来讲软件被划分为编程语言、系统软件、应用软件和介于这两者之间的中间件。软件就是程序加文档的集合体。

《香港生成式人工智能技术及应用指引》发布

《香港生成式人工智能技术及应用指引》发布

专知会员服务

21+阅读 · 2025年4月20日

工业人工智能白皮书2025年版：边缘AI驱动，助力新质生产力，82页pdf

工业人工智能白皮书2025年版：边缘AI驱动，助力新质生产力，82页pdf

专知会员服务

45+阅读 · 2025年1月17日

2023-2024中国人工智能计算力发展评估报告

2023-2024中国人工智能计算力发展评估报告

专知会员服务

102+阅读 · 2023年12月2日

【通用人工智能的曙光】生成式人工智能技术的产业影响，33页pdf

【通用人工智能的曙光】生成式人工智能技术的产业影响，33页pdf

专知会员服务

83+阅读 · 2023年8月17日

重磅！斯坦福HAI《2023人工智能指数报告》出炉，386页pdf了解AI十大态势进展（附中文版报告下载）

重磅！斯坦福HAI《2023人工智能指数报告》出炉，386页pdf了解AI十大态势进展（附中文版报告下载）

专知会员服务

150+阅读 · 2023年4月4日

2022-2023中国人工智能计算力发展评估报告，32页pdf

2022-2023中国人工智能计算力发展评估报告，32页pdf

专知会员服务

52+阅读 · 2023年1月4日

《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知会员服务

189+阅读 · 2022年4月15日

重磅！斯坦福HAI《2022人工智能指数报告》出炉，230页pdf了解AI八大态势进展

重磅！斯坦福HAI《2022人工智能指数报告》出炉，230页pdf了解AI八大态势进展

专知会员服务

119+阅读 · 2022年3月16日

《中国新一代人工智能科技产业发展•2020》报告，附pdf与ppt

专知会员服务

189+阅读 · 2020年11月12日

【重磅】斯坦福《2019人工智能指数报告》出炉，291页pdf了解AI态势进展

【重磅】斯坦福《2019人工智能指数报告》出炉，291页pdf了解AI态势进展

专知会员服务

60+阅读 · 2019年12月12日

重磅！斯坦福HAI《2023人工智能指数报告》出炉，386页pdf了解AI十大态势进展（附中文版报告下载）

重磅！斯坦福HAI《2023人工智能指数报告》出炉，386页pdf了解AI十大态势进展（附中文版报告下载）

专知

24+阅读 · 2023年4月4日

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

专知

116+阅读 · 2022年9月1日

重磅！最新《人工智能白皮书（2022年）》发布，42页pdf

重磅！最新《人工智能白皮书（2022年）》发布，42页pdf

专知

25+阅读 · 2022年4月13日

《智慧城市城市运行指标体系总体框架及指标制定要求》国家标准征求意见稿发布！30页pdf

《智慧城市城市运行指标体系总体框架及指标制定要求》国家标准征求意见稿发布！30页pdf

专知

25+阅读 · 2022年3月22日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

【APC】先进过程控制系统（APC: Advanced Process Control）

【APC】先进过程控制系统（APC: Advanced Process Control）

产业智能官

69+阅读 · 2020年7月12日

清华大学、中国人工智能学会联合发布《2019人工智能发展报告》，391页pdf详述进展

清华大学、中国人工智能学会联合发布《2019人工智能发展报告》，391页pdf详述进展

专知

24+阅读 · 2019年12月1日

AMiner发布《人工智能之信息检索与推荐》报告，附72页PDF下载

AMiner发布《人工智能之信息检索与推荐》报告，附72页PDF下载

专知

23+阅读 · 2019年9月6日

CIE智库：《2018新一代人工智能白皮书：产业增长点研判》解读（附白皮书下载）

CIE智库：《2018新一代人工智能白皮书：产业增长点研判》解读（附白皮书下载）

走向智能论坛

11+阅读 · 2018年11月8日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

基于工业大数据挖掘的复杂产品总完工时间动态预测

国家自然科学基金

4+阅读 · 2015年12月31日

基于适应度值的信息反馈型群智能算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向物联网搜索的群智感知关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于智能空间的云机器人行为知识驱动服务机制研究

国家自然科学基金

3+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

核反应动力学高效数值模拟软件集成开发与应用

国家自然科学基金

1+阅读 · 2014年12月31日

千万自由度量级并行有限元模态和振动分析软件研发

国家自然科学基金

0+阅读 · 2014年12月31日

基于人眼关注度与情感分析的电子商务智能推荐计算

国家自然科学基金

0+阅读 · 2014年12月31日

基于BIM的建筑生命周期环境与经济评价及优化设计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

OmniCode: A Benchmark for Evaluating Software Engineering Agents

Arxiv

0+阅读 · 2月6日

SWE-Dev: Evaluating and Training Autonomous Feature-Driven Software Development

Arxiv

0+阅读 · 2月6日

SWE-Master: Unleashing the Potential of Software Engineering Agents via Post-Training

Arxiv

0+阅读 · 2月3日

OmniCode: A Benchmark for Evaluating Software Engineering Agents

Arxiv

0+阅读 · 2月2日

TOM-SWE: User Mental Modeling For Software Engineering Agents

Arxiv

0+阅读 · 1月29日

SysMoBench: Evaluating AI on Formally Modeling Complex Real-World Systems

Arxiv

0+阅读 · 1月28日

DevOps-Gym: Benchmarking AI Agents in Software DevOps Cycle

Arxiv

0+阅读 · 1月27日

Arxiv

0+阅读 · 1月27日

SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios

Arxiv

0+阅读 · 1月26日

Arxiv

0+阅读 · 1月20日

VIP会员

文章信息

相关主题

最新内容

【CMU博士论文】物理世界的视觉感知与深度理解

【CMU博士论文】物理世界的视觉感知与深度理解

专知会员服务

0+阅读 · 今天14:36

多智能体系统：从经典范式到大基础模型驱动的未来

多智能体系统：从经典范式到大基础模型驱动的未来

专知会员服务

1+阅读 · 今天14:33

伊朗战争停火期间美军关键弹药状况分析

伊朗战争停火期间美军关键弹药状况分析

专知会员服务

6+阅读 · 今天11:13

电子战革命：塑造战场的十年突破（2015–2025）

电子战革命：塑造战场的十年突破（2015–2025）

专知会员服务

4+阅读 · 今天9:19

人工智能赋能电子战解决方案：实现电磁优势的认知方法（万字长文）

人工智能赋能电子战解决方案：实现电磁优势的认知方法（万字长文）

专知会员服务

5+阅读 · 今天9:00

《基于模型的系统工程框架及其在电子战系统中的应用》

《基于模型的系统工程框架及其在电子战系统中的应用》

专知会员服务

4+阅读 · 今天8:27

人工智能即服务与未来战争（印度视角）

人工智能即服务与未来战争（印度视角）

专知会员服务

2+阅读 · 今天7:57

《将量子技术集成到移动军事系统与战术作战中心框架》

《将量子技术集成到移动军事系统与战术作战中心框架》

专知会员服务

4+阅读 · 今天7:53

《美国战争部2027财年军事人员预算》

《美国战争部2027财年军事人员预算》

专知会员服务

2+阅读 · 今天7:44

伊朗战争中的电子战

伊朗战争中的电子战

专知会员服务

5+阅读 · 今天7:04

大语言模型平台在国防情报应用中的对比

大语言模型平台在国防情报应用中的对比

专知会员服务

8+阅读 · 今天3:12

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

专知会员服务

6+阅读 · 今天3:00

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

专知会员服务

5+阅读 · 今天2:56

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

专知会员服务

5+阅读 · 今天2:44

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

专知会员服务

9+阅读 · 今天2:37

相关VIP内容

《香港生成式人工智能技术及应用指引》发布

《香港生成式人工智能技术及应用指引》发布

专知会员服务

21+阅读 · 2025年4月20日

工业人工智能白皮书2025年版：边缘AI驱动，助力新质生产力，82页pdf

工业人工智能白皮书2025年版：边缘AI驱动，助力新质生产力，82页pdf

专知会员服务

45+阅读 · 2025年1月17日

2023-2024中国人工智能计算力发展评估报告

2023-2024中国人工智能计算力发展评估报告

专知会员服务

102+阅读 · 2023年12月2日

【通用人工智能的曙光】生成式人工智能技术的产业影响，33页pdf

【通用人工智能的曙光】生成式人工智能技术的产业影响，33页pdf

专知会员服务

83+阅读 · 2023年8月17日

重磅！斯坦福HAI《2023人工智能指数报告》出炉，386页pdf了解AI十大态势进展（附中文版报告下载）

重磅！斯坦福HAI《2023人工智能指数报告》出炉，386页pdf了解AI十大态势进展（附中文版报告下载）

专知会员服务

150+阅读 · 2023年4月4日

2022-2023中国人工智能计算力发展评估报告，32页pdf

2022-2023中国人工智能计算力发展评估报告，32页pdf

专知会员服务

52+阅读 · 2023年1月4日

《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知会员服务

189+阅读 · 2022年4月15日

重磅！斯坦福HAI《2022人工智能指数报告》出炉，230页pdf了解AI八大态势进展

重磅！斯坦福HAI《2022人工智能指数报告》出炉，230页pdf了解AI八大态势进展

专知会员服务

119+阅读 · 2022年3月16日

《中国新一代人工智能科技产业发展•2020》报告，附pdf与ppt

专知会员服务

189+阅读 · 2020年11月12日

【重磅】斯坦福《2019人工智能指数报告》出炉，291页pdf了解AI态势进展

【重磅】斯坦福《2019人工智能指数报告》出炉，291页pdf了解AI态势进展

专知会员服务

60+阅读 · 2019年12月12日

热门VIP内容

开通专知VIP会员享更多权益服务

多智能体系统：从经典范式到大基础模型驱动的未来

电子战革命：塑造战场的十年突破（2015–2025）

【CMU博士论文】物理世界的视觉感知与深度理解

伊朗战争停火期间美军关键弹药状况分析

相关资讯

重磅！斯坦福HAI《2023人工智能指数报告》出炉，386页pdf了解AI十大态势进展（附中文版报告下载）

重磅！斯坦福HAI《2023人工智能指数报告》出炉，386页pdf了解AI十大态势进展（附中文版报告下载）

专知

24+阅读 · 2023年4月4日

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

专知

116+阅读 · 2022年9月1日

重磅！最新《人工智能白皮书（2022年）》发布，42页pdf

重磅！最新《人工智能白皮书（2022年）》发布，42页pdf

专知

25+阅读 · 2022年4月13日

《智慧城市城市运行指标体系总体框架及指标制定要求》国家标准征求意见稿发布！30页pdf

《智慧城市城市运行指标体系总体框架及指标制定要求》国家标准征求意见稿发布！30页pdf

专知

25+阅读 · 2022年3月22日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

【APC】先进过程控制系统（APC: Advanced Process Control）

【APC】先进过程控制系统（APC: Advanced Process Control）

产业智能官

69+阅读 · 2020年7月12日

清华大学、中国人工智能学会联合发布《2019人工智能发展报告》，391页pdf详述进展

清华大学、中国人工智能学会联合发布《2019人工智能发展报告》，391页pdf详述进展

专知

24+阅读 · 2019年12月1日

AMiner发布《人工智能之信息检索与推荐》报告，附72页PDF下载

AMiner发布《人工智能之信息检索与推荐》报告，附72页PDF下载

专知

23+阅读 · 2019年9月6日

CIE智库：《2018新一代人工智能白皮书：产业增长点研判》解读（附白皮书下载）

CIE智库：《2018新一代人工智能白皮书：产业增长点研判》解读（附白皮书下载）

走向智能论坛

11+阅读 · 2018年11月8日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

OmniCode: A Benchmark for Evaluating Software Engineering Agents

Arxiv

0+阅读 · 2月6日

SWE-Dev: Evaluating and Training Autonomous Feature-Driven Software Development

Arxiv

0+阅读 · 2月6日

SWE-Master: Unleashing the Potential of Software Engineering Agents via Post-Training

Arxiv

0+阅读 · 2月3日

OmniCode: A Benchmark for Evaluating Software Engineering Agents

Arxiv

0+阅读 · 2月2日

TOM-SWE: User Mental Modeling For Software Engineering Agents

Arxiv

0+阅读 · 1月29日

SysMoBench: Evaluating AI on Formally Modeling Complex Real-World Systems

Arxiv

0+阅读 · 1月28日

DevOps-Gym: Benchmarking AI Agents in Software DevOps Cycle

Arxiv

0+阅读 · 1月27日

Arxiv

0+阅读 · 1月27日

SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios

Arxiv

0+阅读 · 1月26日

Arxiv

0+阅读 · 1月20日

相关基金

基于工业大数据挖掘的复杂产品总完工时间动态预测

国家自然科学基金

4+阅读 · 2015年12月31日

基于适应度值的信息反馈型群智能算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向物联网搜索的群智感知关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于智能空间的云机器人行为知识驱动服务机制研究

国家自然科学基金

3+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

核反应动力学高效数值模拟软件集成开发与应用

国家自然科学基金

1+阅读 · 2014年12月31日

千万自由度量级并行有限元模态和振动分析软件研发

国家自然科学基金

0+阅读 · 2014年12月31日

基于人眼关注度与情感分析的电子商务智能推荐计算

国家自然科学基金

0+阅读 · 2014年12月31日

基于BIM的建筑生命周期环境与经济评价及优化设计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员