With the growing adoption of Large Language Model (LLM) agents in persistent, real-world roles, they naturally encounter continuous streams of tasks and inevitable failures. A key limitation, however, is their inability to systematically learn from these mistakes, forcing them to repeat identical errors in similar contexts. Unlike prior training-free methods that primarily store raw instance-level experience or focus on retrieving successful trajectories, we propose Mistake Notebook Learning (MNL), a novel memory framework that enables agents to self-curate generalizable guidance from batch-clustered failures. This mechanism allows agents to distill shared error patterns into structured ``mistake notes,'' updating an external memory only when batch performance improves to ensure stability. To further amplify adaptability, we integrate MNL with test-time scaling, leveraging aggregated failure patterns to actively steer the search process away from known pitfalls. Experiments on mathematical reasoning, Text-to-SQL, and interactive agent benchmarks show that MNL achieves competitive performance compared to existing memory mechanisms and in-context methods in both effectiveness and efficiency. These findings position structured mistake abstraction as a critical lever for robust agent evolution, enabling continuous improvement without the cost of parameter updates.


翻译:随着大型语言模型(LLM)智能体在持久性现实场景中的日益广泛应用,它们不可避免地会面临连续的任务流和必然的失败。然而,一个关键局限在于它们无法系统性地从错误中学习,导致在相似情境下重复犯相同错误。与以往主要存储原始实例级经验或专注于检索成功轨迹的无训练方法不同,我们提出错误笔记本学习(MNL),这是一种新颖的记忆框架,使智能体能够从批量聚类的失败中自我提炼可泛化的指导。该机制允许智能体将共享的错误模式提炼为结构化的“错误笔记”,仅当批量性能提升时才更新外部记忆以确保稳定性。为进一步增强适应性,我们将MNL与测试时扩展技术结合,利用聚合的失败模式主动引导搜索过程避开已知陷阱。在数学推理、Text-to-SQL和交互式智能体基准测试上的实验表明,MNL在效果和效率方面均达到与现有记忆机制及上下文学习方法相当的性能。这些发现表明,结构化的错误抽象是实现智能体稳健进化的关键杠杆,使其能够在无需参数更新的情况下持续改进。

0
下载
关闭预览

相关内容

是一种小型、可以方便携带的个人电脑.通常拥有液晶显示器(液晶屏),现在新式的有触摸屏。除了键盘以外,有些还装有触控板(touchpad)或触控点作为定位设备。
AgentOps综述:分类、挑战与未来方向
专知会员服务
38+阅读 · 2025年8月6日
OpenAI 32页《智能体》指南,如何构建首个智能体系统
专知会员服务
50+阅读 · 2025年4月18日
什么是后训练?大语言模型训练后优化方法综述,87页pdf
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员