Current benchmarks for code agents primarily assess narrow, repository-specific fixes, overlooking critical real-world challenges such as cross-repository reasoning, domain-specialized problem solving, dependency-driven migration, and full-repository generation. To address this gap, we introduce BeyondSWE, a comprehensive benchmark that broadens existing evaluations along two axes - resolution scope and knowledge scope - using 500 real-world instances across four distinct settings. Experimental results reveal a significant capability gap: even frontier models plateau below 45% success, and no single model performs consistently across task types. To systematically investigate the role of external knowledge, we develop SearchSWE, a framework that integrates deep search with coding abilities. Our experiments show that search augmentation yields inconsistent gains and can in some cases degrade performance, highlighting the difficulty of emulating developer-like workflows that interleave search and reasoning during coding tasks. This work offers both a realistic, challenging evaluation benchmark and a flexible framework to advance research toward more capable code agents.


翻译:当前代码代理的基准测试主要评估狭窄的、仓库特定的修复,忽略了关键的现实世界挑战,例如跨仓库推理、领域专门化问题解决、依赖驱动迁移以及全仓库生成。为填补这一空白,我们引入了BeyondSWE,这是一个全面的基准测试,它沿着两个轴——解决范围和知识范围——扩展了现有评估,使用了跨越四种不同场景的500个真实世界实例。实验结果显示了一个显著的能力差距:即使是前沿模型的成功率也停滞在45%以下,且没有单一模型在所有任务类型中表现一致。为了系统地研究外部知识的作用,我们开发了SearchSWE,这是一个将深度搜索与编码能力相结合的框架。我们的实验表明,搜索增强带来的收益并不一致,在某些情况下甚至会降低性能,这凸显了在编码任务中模拟开发者那样交织搜索与推理的工作流程的困难。这项工作既提供了一个现实且具有挑战性的评估基准,也提供了一个灵活的框架,以推动研究朝着开发更强大的代码代理迈进。

0
下载
关闭预览

相关内容

代码(Code)是专知网的一个重要知识资料文档板块,旨在整理收录论文源代码、复现代码,经典工程代码等,便于用户查阅下载使用。
AI生成代码缺陷综述
专知会员服务
17+阅读 · 2025年12月8日
八个不容错过的 GitHub Copilot 功能!
CSDN
11+阅读 · 2022年9月22日
使用 Keras Tuner 调节超参数
TensorFlow
15+阅读 · 2020年2月6日
基于 SonarQube 的增量代码扫描
DevOps时代
12+阅读 · 2019年7月18日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 世界动作模型:少做梦,多行动
专知会员服务
4+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
7+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
4+阅读 · 6月23日
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
AI生成代码缺陷综述
专知会员服务
17+阅读 · 2025年12月8日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员