APEX-SWE - 专知论文

会员服务 ·

0

翻译：APEX-SWE：人工智能软件工程生产力指数基准

Abhi Kottamasu,Chirag Mahapatra,Sam Lee,Ben Pan,Aakash Barthwal,Akul Datta,Anurag Gupta,Pranav Mehta,Ajay Arun,Silas Alberti,Adarsh Hiremath,Brendan Foody,Bertie Vidgen

We introduce the AI Productivity Index for Software Engineering (APEX-SWE), a benchmark for assessing whether frontier AI models can execute economically valuable software engineering work. Unlike existing evaluations that focus on narrow, well-defined tasks, APEX-SWE assesses two novel task types that reflect real-world software engineering: (1) Integration tasks (n=100), which require constructing end-to-end systems across heterogeneous cloud primitives, business applications, and infrastructure-as-code services, and (2) Observability tasks (n=100), which require debugging production failures using telemetry signals such as logs and dashboards, as well as unstructured context. We evaluated eleven frontier models for the APEX-SWE leaderboard. Claude Opus 4.6 leads the APEX-SWE leaderboard with 40.5% Pass@1, followed by Claude Opus 4.5 at 38.7%. Our analysis shows that strong performance is primarily driven by epistemic discipline, defined as the capacity to distinguish between assumptions and verified facts. It is often combined with systematic verification prior to acting. We open-source the APEX-SWE evaluation harness and a dev set (n=50).

翻译：我们提出了人工智能软件工程生产力指数（APEX-SWE），这是一个用于评估前沿AI模型能否执行具有经济价值的软件工程工作的基准。与现有专注于狭窄、定义明确任务的评估不同，APEX-SWE评估了两种反映真实软件工程的新任务类型：（1）集成任务（n=100），要求跨异构云原语、业务应用和基础设施即代码服务构建端到端系统；（2）可观测性任务（n=100），要求使用日志和仪表盘等遥测信号以及非结构化上下文调试生产故障。我们对十一个前沿模型进行了APEX-SWE排行榜评估。Claude Opus 4.6以40.5%的Pass@1领先APEX-SWE排行榜，其次是Claude Opus 4.5的38.7%。我们的分析表明，强大的性能主要由认知纪律驱动，定义为区分假设与验证事实的能力，且常与行动前的系统性验证相结合。我们开源了APEX-SWE评估工具包和开发集（n=50）。

0

相关内容

《香港生成式人工智能技术及应用指引》发布

《香港生成式人工智能技术及应用指引》发布

专知会员服务

22+阅读 · 2025年4月20日

工业人工智能白皮书2025年版：边缘AI驱动，助力新质生产力，82页pdf

工业人工智能白皮书2025年版：边缘AI驱动，助力新质生产力，82页pdf

专知会员服务

47+阅读 · 2025年1月17日

【通用人工智能的曙光】生成式人工智能技术的产业影响，33页pdf

【通用人工智能的曙光】生成式人工智能技术的产业影响，33页pdf

专知会员服务

83+阅读 · 2023年8月17日

重磅！斯坦福HAI《2023人工智能指数报告》出炉，386页pdf了解AI十大态势进展（附中文版报告下载）

重磅！斯坦福HAI《2023人工智能指数报告》出炉，386页pdf了解AI十大态势进展（附中文版报告下载）

专知会员服务

150+阅读 · 2023年4月4日

2022-2023中国人工智能计算力发展评估报告，32页pdf

2022-2023中国人工智能计算力发展评估报告，32页pdf

专知会员服务

52+阅读 · 2023年1月4日

《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知会员服务

190+阅读 · 2022年4月15日

重磅！斯坦福HAI《2022人工智能指数报告》出炉，230页pdf了解AI八大态势进展

重磅！斯坦福HAI《2022人工智能指数报告》出炉，230页pdf了解AI八大态势进展

专知会员服务

119+阅读 · 2022年3月16日

《人工智能芯片基准测试评估方法》行业标准

《人工智能芯片基准测试评估方法》行业标准

专知会员服务

87+阅读 · 2022年2月20日

【重磅】斯坦福《2019人工智能指数报告》出炉，291页pdf了解AI态势进展

【重磅】斯坦福《2019人工智能指数报告》出炉，291页pdf了解AI态势进展

专知会员服务

60+阅读 · 2019年12月12日

《中国人工智能基础数据服务行业白皮书》（2019版）发布，43页PDF，艾瑞咨询研究院、百度数据众包编

《中国人工智能基础数据服务行业白皮书》（2019版）发布，43页PDF，艾瑞咨询研究院、百度数据众包编

专知会员服务

11+阅读 · 2019年11月8日

重磅！斯坦福HAI《2023人工智能指数报告》出炉，386页pdf了解AI十大态势进展（附中文版报告下载）

重磅！斯坦福HAI《2023人工智能指数报告》出炉，386页pdf了解AI十大态势进展（附中文版报告下载）

专知

24+阅读 · 2023年4月4日

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

专知

118+阅读 · 2022年9月1日

《智慧城市城市运行指标体系总体框架及指标制定要求》国家标准征求意见稿发布！30页pdf

《智慧城市城市运行指标体系总体框架及指标制定要求》国家标准征求意见稿发布！30页pdf

专知

25+阅读 · 2022年3月22日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

【APC】先进过程控制系统（APC: Advanced Process Control）

【APC】先进过程控制系统（APC: Advanced Process Control）

产业智能官

69+阅读 · 2020年7月12日

清华大学、中国人工智能学会联合发布《2019人工智能发展报告》，391页pdf详述进展

清华大学、中国人工智能学会联合发布《2019人工智能发展报告》，391页pdf详述进展

专知

24+阅读 · 2019年12月1日

AMiner发布《人工智能之信息检索与推荐》报告，附72页PDF下载

AMiner发布《人工智能之信息检索与推荐》报告，附72页PDF下载

专知

23+阅读 · 2019年9月6日

《人工智能转型手册》，吴恩达著

《人工智能转型手册》，吴恩达著

人工智能学家

21+阅读 · 2018年12月14日

AI综述专栏 | 基于深度学习的目标检测算法综述

AI综述专栏 | 基于深度学习的目标检测算法综述

人工智能前沿讲习班

12+阅读 · 2018年12月7日

CIE智库：《2018新一代人工智能白皮书：产业增长点研判》解读（附白皮书下载）

CIE智库：《2018新一代人工智能白皮书：产业增长点研判》解读（附白皮书下载）

走向智能论坛

11+阅读 · 2018年11月8日

基于工业大数据挖掘的复杂产品总完工时间动态预测

国家自然科学基金

4+阅读 · 2015年12月31日

基于适应度值的信息反馈型群智能算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向物联网搜索的群智感知关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于强化学习的分布参数系统数据驱动控制

国家自然科学基金

7+阅读 · 2015年12月31日

基于日常移动平台的用户状态感知与软件协同技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

核反应动力学高效数值模拟软件集成开发与应用

国家自然科学基金

1+阅读 · 2014年12月31日

千万自由度量级并行有限元模态和振动分析软件研发

国家自然科学基金

0+阅读 · 2014年12月31日

基于人眼关注度与情感分析的电子商务智能推荐计算

国家自然科学基金

0+阅读 · 2014年12月31日

基于BIM的建筑生命周期环境与经济评价及优化设计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

SWE-Bench 5G: Benchmarking AI Coding Agents on Telecom Network Engineering Tasks

Arxiv

0+阅读 · 4月29日

AVISE: Framework for Evaluating the Security of AI Systems

Arxiv

1+阅读 · 4月22日

AI-Augmented Peer Review and Scientific Productivity: A Cross-Country Panel and SEM Analysis

Arxiv

0+阅读 · 4月7日

APEX-EM: Non-Parametric Online Learning for Autonomous Agents via Structured Procedural-Episodic Experience Replay

Arxiv

0+阅读 · 4月2日

APEX-EM: Non-Parametric Online Learning for Autonomous Agents via Structured Procedural-Episodic Experience Replay

Arxiv

0+阅读 · 3月31日

AI Application Benchmarking: Power-Aware Performance Analysis for Vision and Language Models

Arxiv

0+阅读 · 3月17日

Artificial Intelligence as a Catalyst for Innovation in Software Engineering

Arxiv

0+阅读 · 3月11日

Baseline Performance of AI Tools in Classifying Cognitive Demand of Mathematical Tasks

Arxiv

0+阅读 · 3月3日

SWE-Master: Unleashing the Potential of Software Engineering Agents via Post-Training

Arxiv

0+阅读 · 2月24日

Arxiv

0+阅读 · 2月23日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

2+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

3+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

8+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

6+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

4+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

6+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

6+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

8+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

7+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

5+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

5+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

《香港生成式人工智能技术及应用指引》发布

《香港生成式人工智能技术及应用指引》发布

专知会员服务

22+阅读 · 2025年4月20日

工业人工智能白皮书2025年版：边缘AI驱动，助力新质生产力，82页pdf

工业人工智能白皮书2025年版：边缘AI驱动，助力新质生产力，82页pdf

专知会员服务

47+阅读 · 2025年1月17日

【通用人工智能的曙光】生成式人工智能技术的产业影响，33页pdf

【通用人工智能的曙光】生成式人工智能技术的产业影响，33页pdf

专知会员服务

83+阅读 · 2023年8月17日

重磅！斯坦福HAI《2023人工智能指数报告》出炉，386页pdf了解AI十大态势进展（附中文版报告下载）

重磅！斯坦福HAI《2023人工智能指数报告》出炉，386页pdf了解AI十大态势进展（附中文版报告下载）

专知会员服务

150+阅读 · 2023年4月4日

2022-2023中国人工智能计算力发展评估报告，32页pdf

2022-2023中国人工智能计算力发展评估报告，32页pdf

专知会员服务

52+阅读 · 2023年1月4日

《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知会员服务

190+阅读 · 2022年4月15日

重磅！斯坦福HAI《2022人工智能指数报告》出炉，230页pdf了解AI八大态势进展

重磅！斯坦福HAI《2022人工智能指数报告》出炉，230页pdf了解AI八大态势进展

专知会员服务

119+阅读 · 2022年3月16日

《人工智能芯片基准测试评估方法》行业标准

《人工智能芯片基准测试评估方法》行业标准

专知会员服务

87+阅读 · 2022年2月20日

【重磅】斯坦福《2019人工智能指数报告》出炉，291页pdf了解AI态势进展

【重磅】斯坦福《2019人工智能指数报告》出炉，291页pdf了解AI态势进展

专知会员服务

60+阅读 · 2019年12月12日

《中国人工智能基础数据服务行业白皮书》（2019版）发布，43页PDF，艾瑞咨询研究院、百度数据众包编

《中国人工智能基础数据服务行业白皮书》（2019版）发布，43页PDF，艾瑞咨询研究院、百度数据众包编

专知会员服务

11+阅读 · 2019年11月8日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

重磅！斯坦福HAI《2023人工智能指数报告》出炉，386页pdf了解AI十大态势进展（附中文版报告下载）

重磅！斯坦福HAI《2023人工智能指数报告》出炉，386页pdf了解AI十大态势进展（附中文版报告下载）

专知

24+阅读 · 2023年4月4日

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

专知

118+阅读 · 2022年9月1日

《智慧城市城市运行指标体系总体框架及指标制定要求》国家标准征求意见稿发布！30页pdf

《智慧城市城市运行指标体系总体框架及指标制定要求》国家标准征求意见稿发布！30页pdf

专知

25+阅读 · 2022年3月22日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

【APC】先进过程控制系统（APC: Advanced Process Control）

【APC】先进过程控制系统（APC: Advanced Process Control）

产业智能官

69+阅读 · 2020年7月12日

清华大学、中国人工智能学会联合发布《2019人工智能发展报告》，391页pdf详述进展

清华大学、中国人工智能学会联合发布《2019人工智能发展报告》，391页pdf详述进展

专知

24+阅读 · 2019年12月1日

AMiner发布《人工智能之信息检索与推荐》报告，附72页PDF下载

AMiner发布《人工智能之信息检索与推荐》报告，附72页PDF下载

专知

23+阅读 · 2019年9月6日

《人工智能转型手册》，吴恩达著

《人工智能转型手册》，吴恩达著

人工智能学家

21+阅读 · 2018年12月14日

AI综述专栏 | 基于深度学习的目标检测算法综述

AI综述专栏 | 基于深度学习的目标检测算法综述

人工智能前沿讲习班

12+阅读 · 2018年12月7日

CIE智库：《2018新一代人工智能白皮书：产业增长点研判》解读（附白皮书下载）

CIE智库：《2018新一代人工智能白皮书：产业增长点研判》解读（附白皮书下载）

走向智能论坛

11+阅读 · 2018年11月8日

相关论文

SWE-Bench 5G: Benchmarking AI Coding Agents on Telecom Network Engineering Tasks

Arxiv

0+阅读 · 4月29日

AVISE: Framework for Evaluating the Security of AI Systems

Arxiv

1+阅读 · 4月22日

AI-Augmented Peer Review and Scientific Productivity: A Cross-Country Panel and SEM Analysis

Arxiv

0+阅读 · 4月7日

APEX-EM: Non-Parametric Online Learning for Autonomous Agents via Structured Procedural-Episodic Experience Replay

Arxiv

0+阅读 · 4月2日

APEX-EM: Non-Parametric Online Learning for Autonomous Agents via Structured Procedural-Episodic Experience Replay

Arxiv

0+阅读 · 3月31日

AI Application Benchmarking: Power-Aware Performance Analysis for Vision and Language Models

Arxiv

0+阅读 · 3月17日

Artificial Intelligence as a Catalyst for Innovation in Software Engineering

Arxiv

0+阅读 · 3月11日

Baseline Performance of AI Tools in Classifying Cognitive Demand of Mathematical Tasks

Arxiv

0+阅读 · 3月3日

SWE-Master: Unleashing the Potential of Software Engineering Agents via Post-Training

Arxiv

0+阅读 · 2月24日

Arxiv

0+阅读 · 2月23日

相关基金

基于工业大数据挖掘的复杂产品总完工时间动态预测

国家自然科学基金

4+阅读 · 2015年12月31日

基于适应度值的信息反馈型群智能算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向物联网搜索的群智感知关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于强化学习的分布参数系统数据驱动控制

国家自然科学基金

7+阅读 · 2015年12月31日

基于日常移动平台的用户状态感知与软件协同技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

核反应动力学高效数值模拟软件集成开发与应用

国家自然科学基金

1+阅读 · 2014年12月31日

千万自由度量级并行有限元模态和振动分析软件研发

国家自然科学基金

0+阅读 · 2014年12月31日

基于人眼关注度与情感分析的电子商务智能推荐计算

国家自然科学基金

0+阅读 · 2014年12月31日

基于BIM的建筑生命周期环境与经济评价及优化设计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员