Position: Coding Benchmarks Are Misaligned with Agentic Software Engineering - 专知论文

会员服务 ·

0

基准 · 基准测试 · 工具 · 软件 · 软件工程 ·

Position: Coding Benchmarks Are Misaligned with Agentic Software Engineering

翻译：立场：编码基准测试与智能体软件工程存在错位

Maria I. Gorinova,Macey Baker,Amy Heineike,Maksim Shaposhnikov,Rob Willoughby,Dru Knox

Coding agents have become a major mode of software engineering, but the benchmarks we use to compare them were designed in a pre-agent era: they collapse model, harness, and environment into a single end-to-end score, typically computed against one reference solution, with no component-level signal for iteration. We argue that current coding benchmarks are misaligned with agentic software engineering. A coding agent in practice is not a model: it is a system harness -- a composite of models, harnesses, contexts, environments, and feedback signals, any one of which can move the benchmark score by margins comparable to those between adjacent model generations. We discuss three symptoms: (i) benchmark scores conflate the model with the rest of the harness; (ii) grading against a single reference solution penalises equally valid alternatives; and (iii) the absence of signal at the level of individual harness components makes the end-to-end system score difficult to iterate on.

翻译：编码智能体已成为软件工程的一种主要范式，但我们用于比较它们的基准测试设计于智能体时代之前：这些基准测试将模型、工具链和环境整合为一个单一端到端分数，通常仅针对一个参考解决方案计算，且不提供组件级别的迭代信号。我们认为当前的编码基准测试与智能体软件工程存在错位。实际中的编码智能体并非单一模型，而是一个系统工具链——由模型、工具链、上下文、环境和反馈信号共同构成，其中任何一个组件的变动都可能导致基准测试分数的变化幅度堪比相邻模型代际之间的差异。我们讨论了三个表征：(i) 基准测试分数将模型与工具链其他部分混为一谈；(ii) 针对单一参考解决方案评分会惩罚同样有效的替代方案；(iii) 缺乏单个工具组件的信号使得端到端系统分数难以迭代优化。

0

相关内容

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

专知会员服务

25+阅读 · 3月8日

通用智能体评估的逻辑架构

通用智能体评估的逻辑架构

专知会员服务

22+阅读 · 2月28日

专业软件开发者不靠“氛围编程”（Vibe Coding），而靠“控制”：2025 年 AI Agent 在编程中的应用研究

专业软件开发者不靠“氛围编程”（Vibe Coding），而靠“控制”：2025 年 AI Agent 在编程中的应用研究

专知会员服务

21+阅读 · 2025年12月31日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

36+阅读 · 2025年12月31日

AI智能体编程：技术、挑战与机遇综述

AI智能体编程：技术、挑战与机遇综述

专知会员服务

48+阅读 · 2025年8月18日

【斯坦福博士论文】走向具身智能与机器人技术的综合基准测试

【斯坦福博士论文】走向具身智能与机器人技术的综合基准测试

专知会员服务

21+阅读 · 2025年6月22日

基于大型语言模型的软件工程智能体综述

基于大型语言模型的软件工程智能体综述

专知会员服务

60+阅读 · 2024年9月6日

《深度学习代码智能》综述、基准和工具集

《深度学习代码智能》综述、基准和工具集

专知会员服务

56+阅读 · 2024年1月2日

《人工智能芯片基准测试评估方法》行业标准

《人工智能芯片基准测试评估方法》行业标准

专知会员服务

87+阅读 · 2022年2月20日

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

专知会员服务

31+阅读 · 2020年12月20日

《智能制造机器视觉在线检测测试方法》国家标准意见稿

《智能制造机器视觉在线检测测试方法》国家标准意见稿

专知

13+阅读 · 2022年2月22日

智能合约的形式化验证方法研究综述

智能合约的形式化验证方法研究综述

专知

16+阅读 · 2021年5月8日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

专知

23+阅读 · 2019年9月5日

论文浅尝 | 采用多层注意力机制的事件检测

论文浅尝 | 采用多层注意力机制的事件检测

开放知识图谱

24+阅读 · 2019年8月24日

面向人工智能的计算机体系结构

面向人工智能的计算机体系结构

计算机研究与发展

14+阅读 · 2019年6月6日

【人工智能】智能计算概述、神经网络计算、机器学习计算、遗传算法、模糊计算、群智能计算

【人工智能】智能计算概述、神经网络计算、机器学习计算、遗传算法、模糊计算、群智能计算

产业智能官

15+阅读 · 2019年1月8日

手动特征工程已经OUT了！自动特征工程才是改进机器学习的方式

手动特征工程已经OUT了！自动特征工程才是改进机器学习的方式

AI100

11+阅读 · 2018年9月4日

【CAA智库】高文院士：转向跨媒体智能

【CAA智库】高文院士：转向跨媒体智能

中国自动化学会

22+阅读 · 2018年8月20日

特征工程的特征理解（一）

特征工程的特征理解（一）

机器学习研究会

10+阅读 · 2017年10月23日

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

编码和信息安全中的数学问题

国家自然科学基金

0+阅读 · 2015年12月31日

低密度奇偶校验码的误码平层和迭代译码算法的混沌特性分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于本体及推理机的构件化软件演化信息获取及度量技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于构件的可信软件构造及其行为动态可信测评

国家自然科学基金

1+阅读 · 2014年12月31日

可重构的环境自适应RS码软判决译码器研究

国家自然科学基金

0+阅读 · 2014年12月31日

AgentBeats: Agentifying Agent Assessment for Openness, Standardization, and Reproducibility

Arxiv

0+阅读 · 6月14日

Dialogue SWE-Bench: A Benchmark for Dialogue-Driven Coding Agents

Arxiv

0+阅读 · 6月12日

Benchmarking AI Agents for Addressing Scientific Challenges Across Scales

Arxiv

0+阅读 · 6月10日

SecureVibeBench: Benchmarking Secure Vibe Coding of AI Agents via Reconstructing Vulnerability-Introducing Scenarios

Arxiv

0+阅读 · 6月6日

SWE-Explore: Benchmarking How Coding Agents Explore Repositories

Arxiv

0+阅读 · 6月5日

SW-$A^2$-Bench: Benchmarking Autonomous Software Agent Generation for Agentic Web

Arxiv

0+阅读 · 6月5日

Benchmarks are Not Enough: RAMP for Runtime Assessing of Agentic Models in Production Systems

Arxiv

0+阅读 · 5月26日

SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios

Arxiv

0+阅读 · 5月22日

Measuring Security Without Fooling Ourselves: Why Benchmarking Agents Is Hard

Arxiv

0+阅读 · 5月21日

The World Won't Stay Still: Programmable Evolution for Agent Benchmarks

Arxiv

0+阅读 · 5月19日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

3+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

4+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

9+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

7+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

4+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

6+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

6+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

8+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

7+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

5+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

5+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

专知会员服务

25+阅读 · 3月8日

通用智能体评估的逻辑架构

通用智能体评估的逻辑架构

专知会员服务

22+阅读 · 2月28日

专业软件开发者不靠“氛围编程”（Vibe Coding），而靠“控制”：2025 年 AI Agent 在编程中的应用研究

专业软件开发者不靠“氛围编程”（Vibe Coding），而靠“控制”：2025 年 AI Agent 在编程中的应用研究

专知会员服务

21+阅读 · 2025年12月31日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

36+阅读 · 2025年12月31日

AI智能体编程：技术、挑战与机遇综述

AI智能体编程：技术、挑战与机遇综述

专知会员服务

48+阅读 · 2025年8月18日

【斯坦福博士论文】走向具身智能与机器人技术的综合基准测试

【斯坦福博士论文】走向具身智能与机器人技术的综合基准测试

专知会员服务

21+阅读 · 2025年6月22日

基于大型语言模型的软件工程智能体综述

基于大型语言模型的软件工程智能体综述

专知会员服务

60+阅读 · 2024年9月6日

《深度学习代码智能》综述、基准和工具集

《深度学习代码智能》综述、基准和工具集

专知会员服务

56+阅读 · 2024年1月2日

《人工智能芯片基准测试评估方法》行业标准

《人工智能芯片基准测试评估方法》行业标准

专知会员服务

87+阅读 · 2022年2月20日

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

专知会员服务

31+阅读 · 2020年12月20日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

《智能制造机器视觉在线检测测试方法》国家标准意见稿

《智能制造机器视觉在线检测测试方法》国家标准意见稿

专知

13+阅读 · 2022年2月22日

智能合约的形式化验证方法研究综述

智能合约的形式化验证方法研究综述

专知

16+阅读 · 2021年5月8日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

专知

23+阅读 · 2019年9月5日

论文浅尝 | 采用多层注意力机制的事件检测

论文浅尝 | 采用多层注意力机制的事件检测

开放知识图谱

24+阅读 · 2019年8月24日

面向人工智能的计算机体系结构

面向人工智能的计算机体系结构

计算机研究与发展

14+阅读 · 2019年6月6日

【人工智能】智能计算概述、神经网络计算、机器学习计算、遗传算法、模糊计算、群智能计算

【人工智能】智能计算概述、神经网络计算、机器学习计算、遗传算法、模糊计算、群智能计算

产业智能官

15+阅读 · 2019年1月8日

手动特征工程已经OUT了！自动特征工程才是改进机器学习的方式

手动特征工程已经OUT了！自动特征工程才是改进机器学习的方式

AI100

11+阅读 · 2018年9月4日

【CAA智库】高文院士：转向跨媒体智能

【CAA智库】高文院士：转向跨媒体智能

中国自动化学会

22+阅读 · 2018年8月20日

特征工程的特征理解（一）

特征工程的特征理解（一）

机器学习研究会

10+阅读 · 2017年10月23日

相关论文

AgentBeats: Agentifying Agent Assessment for Openness, Standardization, and Reproducibility

Arxiv

0+阅读 · 6月14日

Dialogue SWE-Bench: A Benchmark for Dialogue-Driven Coding Agents

Arxiv

0+阅读 · 6月12日

Benchmarking AI Agents for Addressing Scientific Challenges Across Scales

Arxiv

0+阅读 · 6月10日

SecureVibeBench: Benchmarking Secure Vibe Coding of AI Agents via Reconstructing Vulnerability-Introducing Scenarios

Arxiv

0+阅读 · 6月6日

SWE-Explore: Benchmarking How Coding Agents Explore Repositories

Arxiv

0+阅读 · 6月5日

SW-$A^2$-Bench: Benchmarking Autonomous Software Agent Generation for Agentic Web

Arxiv

0+阅读 · 6月5日

Benchmarks are Not Enough: RAMP for Runtime Assessing of Agentic Models in Production Systems

Arxiv

0+阅读 · 5月26日

SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios

Arxiv

0+阅读 · 5月22日

Measuring Security Without Fooling Ourselves: Why Benchmarking Agents Is Hard

Arxiv

0+阅读 · 5月21日

The World Won't Stay Still: Programmable Evolution for Agent Benchmarks

Arxiv

0+阅读 · 5月19日

相关基金

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

编码和信息安全中的数学问题

国家自然科学基金

0+阅读 · 2015年12月31日

低密度奇偶校验码的误码平层和迭代译码算法的混沌特性分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于本体及推理机的构件化软件演化信息获取及度量技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于构件的可信软件构造及其行为动态可信测评

国家自然科学基金

1+阅读 · 2014年12月31日

可重构的环境自适应RS码软判决译码器研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员