Memory agents, which depart from predefined memory-processing pipelines by endogenously managing the processing, storage, and retrieval of memories, have garnered increasing attention for their autonomy and adaptability. However, existing training paradigms remain constrained: agents often traverse long-horizon sequences of memory operations before receiving sparse and delayed rewards, which hinders truly end-to-end optimization of memory management policies. To address this limitation, we introduce Mem-T, an autonomous memory agent that interfaces with a lightweight hierarchical memory database to perform dynamic updates and multi-turn retrieval over streaming inputs. To effectively train long-horizon memory management capabilities, we further propose MoT-GRPO, a tree-guided reinforcement learning framework that transforms sparse terminal feedback into dense, step-wise supervision via memory operation tree backpropagation and hindsight credit assignment, thereby enabling the joint optimization of memory construction and retrieval. Extensive experiments demonstrate that Mem-T is (1) high-performing, surpassing frameworks such as A-Mem and Mem0 by up to $14.92\%$, and (2) economical, operating on a favorable accuracy-efficiency Pareto frontier and reducing inference tokens per query by $\sim24.45\%$ relative to GAM without sacrificing performance.


翻译:记忆智能体通过内生地管理记忆的处理、存储与检索,摆脱了预定义记忆处理流程的束缚,其自主性与适应性日益受到关注。然而,现有训练范式仍存在局限:智能体通常需执行长时程的记忆操作序列才能获得稀疏且延迟的奖励,这阻碍了记忆管理策略的真正端到端优化。为突破此限制,我们提出Mem-T——一种与轻量级分层记忆数据库交互的自主记忆智能体,能够对流式输入执行动态更新与多轮检索。为有效训练长时程记忆管理能力,我们进一步提出MoT-GRPO框架:该树形引导的强化学习框架通过记忆操作树反向传播与事后信用分配,将稀疏的终端反馈转化为密集的步进式监督,从而实现记忆构建与检索的联合优化。大量实验表明,Mem-T具有(1)高性能特性:在多项任务中超越A-Mem、Mem0等框架达$14.92\%$;(2)经济性优势:在精度-效率帕累托前沿上表现优异,相较于GAM在保持性能的同时将单次查询推理令牌数降低约$\sim24.45\%$。

0
下载
关闭预览

相关内容

MMA:多模态记忆智能体
专知会员服务
9+阅读 · 2月19日
AI智能体时代中的记忆:形式、功能与动态综述
专知会员服务
35+阅读 · 2025年12月16日
深度强化学习中的奖励模型:综述
专知会员服务
29+阅读 · 2025年6月20日
【博士论文】强化学习智能体的奖励函数设计
专知会员服务
48+阅读 · 2025年4月8日
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
18+阅读 · 2020年9月1日
多智能体强化学习(MARL)近年研究概览
PaperWeekly
38+阅读 · 2020年3月15日
深度学习中Attention Mechanism详细介绍:原理、分类及应用
深度学习与NLP
10+阅读 · 2019年2月18日
深度学习中的注意力机制
CSDN大数据
24+阅读 · 2017年11月2日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月21日
VIP会员
相关资讯
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员