Large language model (LLM) agents are increasingly equipped with memory, which are stored experience and reusable guidance that can improve task-solving performance. Recent \emph{self-evolving} systems update memory based on interaction outcomes, but most existing evolution pipelines are developed for static train/test splits and only approximate online learning by folding static benchmarks, making them brittle under true distribution shift and continuous feedback. We introduce \textsc{Live-Evo}, an online self-evolving memory system that learns from a stream of incoming data over time. \textsc{Live-Evo} decouples \emph{what happened} from \emph{how to use it} via an Experience Bank and a Meta-Guideline Bank, compiling task-adaptive guidelines from retrieved experiences for each task. To manage memory online, \textsc{Live-Evo} maintains experience weights and updates them from feedback: experiences that consistently help are reinforced and retrieved more often, while misleading or stale experiences are down-weighted and gradually forgotten, analogous to reinforcement and decay in human memory. On the live \textit{Prophet Arena} benchmark over a 10-week horizon, \textsc{Live-Evo} improves Brier score by 20.8\% and increases market returns by 12.9\%, while also transferring to deep-research benchmarks with consistent gains over strong baselines. Our code is available at https://github.com/ag2ai/Live-Evo.


翻译:大型语言模型(LLM)智能体日益配备记忆功能,即存储的经验和可复用的指导,以提升任务解决性能。近期的**自演化**系统基于交互结果更新记忆,但现有演化流程大多针对静态训练/测试集开发,仅通过折叠静态基准来近似在线学习,使其在真实分布偏移和持续反馈下表现脆弱。我们提出 \textsc{Live-Evo},一种在线自演化记忆系统,能够随时间从持续流入的数据流中学习。\textsc{Live-Evo} 通过经验库和元指导库将**已发生事件**与**如何利用经验**解耦,为每项任务从检索到的经验中编译任务自适应指导。为实现在线记忆管理,\textsc{Live-Evo} 维护经验权重并根据反馈更新:持续提供帮助的经验会被强化并更频繁检索,而产生误导或过时的经验则被降权并逐渐遗忘,类似于人类记忆中的强化与衰减机制。在为期10周的实时 \textit{Prophet Arena} 基准测试中,\textsc{Live-Evo} 将 Brier 分数提升20.8\%,市场回报率提高12.9\%,同时迁移至深度研究基准时亦能持续超越强基线模型。代码已发布于 https://github.com/ag2ai/Live-Evo。

0
下载
关闭预览

相关内容

自进化智能体综述:通往人工超级智能之路
专知会员服务
38+阅读 · 2025年7月30日
「基于通信的多智能体强化学习」 进展综述
多智能体强化学习(MARL)近年研究概览
PaperWeekly
38+阅读 · 2020年3月15日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
【学生论坛】详解记忆增强神经网络
中国科学院自动化研究所
106+阅读 · 2018年11月15日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月21日
VIP会员
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员