LLM-based autonomous agents lack persistent procedural memory: they re-derive solutions from scratch even when structurally identical tasks have been solved before. We present APEX-EM, a non-parametric online learning framework that accumulates, retrieves, and reuses structured procedural plans without modifying model weights. APEX-EM introduces: (1) a structured experience representation encoding the full procedural-episodic trace of each execution -- planning steps, artifacts, iteration history with error analysis, and quality scores; (2) a Plan-Retrieve-Generate-Iterate-Ingest (PRGII) workflow with Task Verifiers providing multi-dimensional reward signals; and (3) a dual-outcome Experience Memory with hybrid retrieval combining semantic search, structural signature matching, and plan DAG traversal -- enabling cross-domain transfer between tasks sharing no lexical overlap but analogous operational structure. Successful experiences serve as positive in-context examples; failures as negative examples with structured error annotations. We evaluate on BigCodeBench, KGQAGen-10k, and Humanity's Last Exam using Claude Sonnet 4.5 and Opus 4.5. On KGQAGen-10k, APEX-EM achieves 89.6% accuracy versus 41.3% without memory (+48.3pp), surpassing the oracle-retrieval upper bound (84.9%). On BigCodeBench, it reaches 83.3% SR from a 53.9% baseline (+29.4pp), exceeding MemRL's +11.0pp gain under comparable frozen-backbone conditions (noting backbone differences controlled for in our analysis). On HLE, entity graph retrieval reaches 48.0% from 25.2% (+22.8pp). Ablations show component value is task-dependent: rich judge feedback is negligible for code generation but critical for structured queries (+10.3pp), while binary-signal iteration partially compensates for weaker feedback.


翻译:基于大语言模型的自主智能体缺乏持久性程序记忆:即使面对已解决过的结构相同任务,它们仍需从零开始重新推导解决方案。本文提出APEX-EM,一种非参数在线学习框架,无需修改模型权重即可积累、检索并重用结构化程序方案。APEX-EM引入以下创新:(1)结构化经验表示,编码每次执行的完整程序-情节轨迹——包含规划步骤、制品、迭代历史与错误分析、质量评分;(2)包含任务验证器提供多维奖励信号的规划-检索-生成-迭代-内化(PRGII)工作流;(3)采用混合检索机制的双结果经验记忆:结合语义搜索、结构签名匹配与方案有向无环图遍历——实现无词汇重叠但具有类比操作结构任务间的跨域迁移。成功经验作为正向上下文示例,失败经验则作为附带结构化错误标注的负向示例。我们使用Claude Sonnet 4.5与Opus 4.5在BigCodeBench、KGQAGen-10k及Humanity's Last Exam上开展评估。在KGQAGen-10k上,APEX-EM实现89.6%准确率(基线无记忆模式为41.3%,提升48.3个百分点),超越最优检索上界84.9%;在BigCodeBench上,APEX-EM从53.9%基线提升至83.3%成功率(+29.4pp),超越在可控冻结骨干条件下MemRL的+11.0pp增益(本研究已控制骨干网络差异);在HLE上,实体图检索从25.2%提升至48.0%(+22.8pp)。消融实验表明组件价值具有任务依赖性:完整验证反馈对代码生成影响可忽略,但对结构化查询至关重要(+10.3pp),而二元信号迭代可部分补偿弱反馈的不足。

0
下载
关闭预览

相关内容

可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
概述自动机器学习(AutoML)
人工智能学家
19+阅读 · 2019年8月11日
爱奇艺基于AI的移动端自动化测试框架的设计
前端之巅
18+阅读 · 2019年2月27日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
5+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员