Large language models (LLMs) have enabled powerful software engineering (SE) agents capable of navigating complex codebases and resolving real-world issues. However, these agents remain fundamentally episodic: they fail to retain, refine, and reuse experiences across tasks, repeatedly reconstructing context from scratch and reproducing similar mistakes. Even with memory support, they offer no remedy for the absence of a principled, task-agnostic \textit{memory utility}, making them difficult to evaluate rigorously or generalize across agents and settings. To tackle these limitations, we introduce \ours, a closed-loop framework for memory augmentation in SE agents. \ours grounds memory utility in \textit{validated downstream impact}, establishing utility as both a task-agnostic \textbf{evaluation benchmark} and an annotation-free \textbf{optimization signal}. Through complementary evaluation on \textit{single-episode} and \textit{cross-episode} memory augmentation, results demonstrate that \ours consistently improves SE agents across settings, achieving absolute gains of up to $\uparrow5.25\%$ in success rate and $\uparrow4.63\%$ in resolve efficiency, while substantially reducing computational cost by $\geq9.79\%$. Our project page: \href{https://xhguo7.github.io/MemOp/}{https://xhguo7.github.io/MemOp/}.


翻译:大型语言模型(LLM)赋能了强大的软件工程(SE)智能体,使其能够处理复杂代码库并解决实际问题。然而,这些智能体本质上仍受限于"回合制"工作模式:它们无法在任务间保留、改进并复用经验,反复从零构建上下文并重复类似错误。即便引入了内存支持,由于缺乏原则性且与任务无关的\textit{内存效用}衡量标准,此类系统仍难以进行严格评估或跨智能体及场景泛化。为应对这些局限,我们提出\ours——一种面向SE智能体内存增强的闭环框架。\ours将内存效用锚定于\textit{经验证的下游影响},既作为与任务无关的\textbf{评估基准},又作为免标注的\textbf{优化信号}。通过\textit{单回合}与\textit{跨回合}两种内存增强模式的互补评估,结果表明\ours能一致性地提升多场景下SE智能体的性能:成功率绝对提升最高达$\uparrow5.25\%$,问题解决效率提升$\uparrow4.63\%$,同时计算成本显著降低$\geq9.79\%$。项目页面:\href{https://xhguo7.github.io/MemOp/}{https://xhguo7.github.io/MemOp/}。

0
下载
关闭预览

相关内容

什么是后训练?大语言模型训练后优化方法综述,87页pdf
基于大型语言模型的软件工程智能体综述
专知会员服务
60+阅读 · 2024年9月6日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 世界动作模型:少做梦,多行动
专知会员服务
4+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
7+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
4+阅读 · 6月23日
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
什么是后训练?大语言模型训练后优化方法综述,87页pdf
基于大型语言模型的软件工程智能体综述
专知会员服务
60+阅读 · 2024年9月6日
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员