Memory has become a standard substrate for self-evolving agents, yet retaining experience is not the same as learning how to evolve through it. Existing memory agents can store trajectories, retrieve reflections, or accumulate skills, but often lack the holistic competence to select useful experience, act on it, write reusable knowledge, and maintain a growing repository. We introduce OPD-Evolver, a slow-fast co-evolution framework that cultivates such an agent evolver through on-policy self-distillation. In the fast loop, OPD-Evolver interacts with a four-level memory hierarchy to read, use, write, and maintain experience for rapid test-time evolution. In the slow loop, outcome-calibrated memory attribution and privileged hindsight distill these four abilities into the deployable policy. Across multi-domain benchmarks, OPD-Evolver surpasses memory systems such as ReasoningBank by up to 11.5%, and training-based methods such as Skill0 by ~5.8%. Further analysis shows that OPD-Evolver internalizes high-value experience and memory management, enabling OPD-Evolver-9B to challenge giant counterparts such as Qwen3.5-397B-A17B and Step-3.5-Flash, pointing beyond memory-augmented agents toward genuinely qualified agent evolvers.


翻译:记忆已成为自进化智能体的标准基板,但保留经验并不等同于学会借助经验进化。现有记忆智能体虽能存储轨迹、检索反思或积累技能,却普遍缺乏选择有效经验、付诸行动、编写可复用知识以及维护持续增长知识库的全维能力。我们提出OPD-Evolver——一种基于on-policy自蒸馏的慢-快双环协同进化框架,用于培育此类智能体进化器。在快环中,OPD-Evolver与四级记忆层级交互,实现快速测试时进化所需经验的读取、使用、编写与维护。在慢环中,基于结果校准的记忆归因与特权后见蒸馏机制,将上述四种能力嵌入可部署策略。跨多领域基准测试显示,OPD-Evolver在ReasoningBank等记忆系统上提升达11.5%,在Skill0等基于训练的方法上提升约5.8%。进一步分析表明,OPD-Evolver内化了高价值经验与记忆管理能力,使OPD-Evolver-9B能够挑战Qwen3.5-397B-A17B与Step-3.5-Flash等庞大模型,标志着从单纯记忆增强型智能体迈向真正合格的智能体进化器。

0
下载
关闭预览

相关内容

【新书】神经进化:释放 AI 智能体设计的创造力, 484页pdf
专知会员服务
42+阅读 · 2025年11月23日
【NTU博士论文】基于协作式多智能体强化学习的决策制定
基于学习机制的多智能体强化学习综述
专知会员服务
63+阅读 · 2024年4月16日
「基于通信的多智能体强化学习」 进展综述
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
Arxiv
0+阅读 · 5月14日
Arxiv
0+阅读 · 5月13日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
6+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
2+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
9+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员