Effective memory management is essential for large language model agents to navigate long-horizon tasks. Recent research has explored using Reinforcement Learning to develop specialized memory manager agents. However, existing approaches rely on final task performance as the primary reward, which results in severe reward sparsity and ineffective credit assignment, providing insufficient guidance for individual memory operations. To this end, we propose Fine-Mem, a unified framework designed for fine-grained feedback alignment. First, we introduce a Chunk-level Step Reward to provide immediate step-level supervision via auxiliary chunk-specific question answering tasks. Second, we devise Evidence-Anchored Reward Attribution to redistribute global rewards by anchoring credit to key memory operations, based on the specific memory items utilized as evidence in reasoning. Together, these components enable stable policy optimization and align local memory operations with the long-term utility of memory. Experiments on Memalpha and MemoryAgentBench demonstrate that Fine-Mem consistently outperforms strong baselines, achieving superior success rates across various sub-tasks. Further analysis reveals its adaptability and strong generalization capabilities across diverse model configurations and backbones.


翻译:有效的记忆管理对于大型语言模型智能体处理长程任务至关重要。近期研究探索了利用强化学习训练专用记忆管理智能体的方法。然而,现有方法主要依赖最终任务性能作为核心奖励信号,这导致严重的奖励稀疏性和低效的信用分配,无法为具体记忆操作提供充分指导。为此,我们提出Fine-Mem——一个为精细化反馈对齐设计的统一框架。首先,我们引入分块级步进奖励机制,通过辅助性的分块特定问答任务提供即时步进级监督。其次,我们设计了证据锚定式奖励归因方法,依据推理过程中作为证据使用的具体记忆条目,将全局奖励重新分配并锚定至关键记忆操作。这两个组件共同实现了稳定的策略优化,并使局部记忆操作与记忆的长期效用保持一致。在Memalpha和MemoryAgentBench基准上的实验表明,Fine-Mem始终优于现有强基线模型,在各类子任务中均取得了更高的成功率。进一步分析揭示了该框架在不同模型配置与骨干网络间具有良好的适应性与强大的泛化能力。

0
下载
关闭预览

相关内容

MMA:多模态记忆智能体
专知会员服务
9+阅读 · 2月19日
AI智能体时代中的记忆:形式、功能与动态综述
专知会员服务
35+阅读 · 2025年12月16日
【CMU博士论文】通过记忆的元强化学习,118页pdf
专知会员服务
49+阅读 · 2022年6月23日
最新《多任务学习》综述,39页pdf
专知
28+阅读 · 2020年7月10日
深度学习中Attention Mechanism详细介绍:原理、分类及应用
深度学习与NLP
10+阅读 · 2019年2月18日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
深度学习中的注意力机制
CSDN大数据
24+阅读 · 2017年11月2日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月21日
VIP会员
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员