Recent advances in language model (LM) agents have significantly improved automated software engineering (SWE). Prior work has proposed various agentic workflows and training strategies as well as analyzed failure modes of agentic systems on SWE tasks, focusing on several contextual information signals: Reproduction Test, Regression Test, Edit Location, Execution Context, and API Usage. However, the individual contribution of each signal to overall success remains underexplored, particularly their ideal contribution when intermediate information is perfectly obtained. To address this gap, we introduce Oracle-SWE, a unified method to isolate and extract oracle information signals from SWE benchmarks and quantify the impact of each signal on agent performance. To further validate the pattern, we evaluate the performance gain of signals extracted by strong LMs when provided to a base agent, approximating real-world task-resolution settings. These evaluations aim to guide research prioritization for autonomous coding systems.


翻译:近年来,语言模型智能体在自动化软件工程领域取得了显著进展。以往研究提出了多种智能体工作流与训练策略,并分析了智能体系统在SWE任务中的失败模式,重点关注以下情境信息信号:复现测试、回归测试、编辑位置、执行上下文及API使用。然而,每种信号对整体成功的个体贡献尚未得到充分探索,尤其是在中间信息被完美获取时的理想贡献。为弥补这一空白,我们提出Oracle-SWE——一种从SWE基准中分离与提取Oracle信息信号、并量化各信号对智能体性能影响的统一方法。为进一步验证模式,我们评估了由强语言模型提取的信号在提供给基础智能体时的性能增益,从而近似真实世界的任务解决场景。这些评估旨在为自主编码系统的研究优先级提供指导。

0
下载
关闭预览

相关内容

《基于Transformer的智能体的战术决策解释》
专知会员服务
48+阅读 · 2025年12月28日
《面向人机协作的扩展型信念-愿望-意图模型》最新111页
基于大语言模型的智能体优化研究综述
专知会员服务
64+阅读 · 2025年3月25日
《信息在多智能体决策中的作用》214页
专知会员服务
64+阅读 · 2024年11月20日
大模型智能体:概念、前沿和产业实践
专知会员服务
79+阅读 · 2024年8月20日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
【知识图谱】知识图谱+人工智能=新型网络信息体系
产业智能官
14+阅读 · 2018年11月18日
Google & CMU:62页PPT带你理解QANet(附下载链接)
机器学习算法与Python学习
13+阅读 · 2018年7月19日
NLP中自动生产文摘(auto text summarization)
机器学习研究会
14+阅读 · 2017年10月10日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
36+阅读 · 2008年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
36+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员