Current benchmarks for evaluating software engineering agents, such as SWE-Bench Verified, are predominantly derived from GitHub issues and fail to accurately reflect how developers interact with chat-based coding assistants in integrated development environments (IDEs). We posit that this mismatch leads to a systematic overestimation of agent's capabilities in real-world scenarios, especially bug fixing. We introduce a novel benchmarking framework that transforms existing formal benchmarks into realistic user queries through systematic analysis of developer interaction patterns with chat-based agents. Our methodology is flexible and can be easily extended to existing benchmarks. In this paper, we apply our testing framework to SWE-Bench Verified, the TypeScript subset of Multi-SWE-Bench and a private benchmark, SWE-Bench C# and transform formal GitHub issue descriptions into realistic user-style queries based on telemetry analysis of a popular chat-based agent interactions. Our findings reveal that existing benchmarks significantly overestimate agent capabilities for some models by >50% over baseline performance for public benchmarks and ~10-16% for our internal benchmark. This work establishes a new paradigm for evaluating interactive chat-based software engineering agents through benchmark mutation techniques.


翻译:当前用于评估软件工程智能体的基准(如SWE-Bench Verified)主要源自GitHub问题,未能准确反映开发者在集成开发环境(IDE)中如何与基于聊天的编码助手进行交互。我们认为这种不匹配导致了对智能体在现实场景(尤其是缺陷修复)中能力的系统性高估。本文提出一种新颖的基准测试框架,该框架通过对开发者与基于聊天的智能体交互模式进行系统分析,将现有形式化基准转化为真实的用户查询。我们的方法具有灵活性,可轻松扩展至现有基准。在本文中,我们将测试框架应用于SWE-Bench Verified、Multi-SWE-Bench的TypeScript子集以及私有基准SWE-Bench C#,并基于对流行聊天智能体交互的遥测分析,将形式化的GitHub问题描述转化为真实的用户风格查询。研究结果表明:对于某些模型,现有基准在公开基准上对智能体能力的高估程度超过基线性能>50%,在内部基准上约为10-16%。这项工作通过基准变异技术,为评估交互式聊天型软件工程智能体建立了新范式。

0
下载
关闭预览

相关内容

智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
智能体工程(Agent Engineering)
专知会员服务
27+阅读 · 2025年12月31日
《基于Transformer的智能体的战术决策解释》
专知会员服务
39+阅读 · 2025年12月28日
大语言模型智能体的评估与基准:综述
专知会员服务
46+阅读 · 2025年7月31日
《交互式对抗智能体开发中的行为克隆方法比较》论文
专知会员服务
56+阅读 · 2023年8月20日
【Facebook】人工智能基准(Benchmarking)测试再思考,55页ppt
专知会员服务
31+阅读 · 2020年12月20日
谷歌EfficientNet缩放模型,PyTorch实现登热榜
机器学习算法与Python学习
11+阅读 · 2019年6月4日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员