Long-running LLM agents accumulate interaction histories far larger than any context window, forcing a standing decision: what to encode deeply, what to forget, and what to retrieve under a fixed memory budget. Production systems answer with semantic similarity or recency -- both mis-specified for the forgetting decision, which is made at consolidation time before the future query is known. We propose a multi-factor memory value function V(m)=\sum_i w_i f_i(m) over seven interpretable factors (emotional intensity, goal relevance, value alignment, self/user relevance, task utility, reliability, and usage history) drawn from cognitive psychology, whose weights are learned from a downstream objective by a gradient-free optimiser, and whose single scalar uniformly controls encoding depth, forget risk, and retrieval rank. We make a methodological point: on LongMemEval, scoring goal relevance against the held-out evaluation question saturates gold-evidence retention at \approx 0.98 -- this measures retrieval, not forgetting. In the realistic blind regime, a learned multi-factor value retains 0.770 \pm 0.011 of gold evidence across 479 usable cases, versus 0.657 for uniform weights, 0.518 for the best single factor, and 0.368 for recency; every paired gap's 95% bootstrap CI is above zero, and a neural network over the same factors ties the linear model. The learned weights are interpretable -- reliability, emotional intensity, and self/user relevance dominate, while query-time goal similarity is correctly down-weighted for the forgetting decision. A controlled synthetic task with planted confounds confirms the learner recovers a separating weighting (1.00 retention) where uniform weighting fails (0.62). The substrate is open-source; all experiments run on a single CPU with no API calls.


翻译:长期运行的LLM智能体累积的交互历史远超任何上下文窗口,这迫使我们必须做出持续性决策:如何在固定记忆预算下,深度编码哪些内容、遗忘哪些内容以及检索哪些内容。现有生产系统通常采用语义相似性或时效性来应对——但对于遗忘决策(在整合阶段做出,且此时未来的查询需求未知)而言,这两种策略都存在设定偏差。我们提出一种多因素记忆价值函数 V(m)=∑_i w_i f_i(m),该函数包含七个可解释因素(情感强度、目标相关性、价值对齐、自我/用户相关性、任务效用、可靠性及使用历史),这些因素源自认知心理学,其权重通过无梯度优化器从下游目标中学习,且该函数的单一标量可统一控制编码深度、遗忘风险及检索排序。我们提出一个方法论观点:在LongMemEval上,针对保留的评估问题对目标相关性进行评分会使黄金证据保留率饱和于约0.98——这衡量的是检索性能而非遗忘性能。在现实的盲评估场景下,学习得到的多因素价值模型在479个可用案例中的黄金证据保留率为0.770±0.011,相比之下,统一权重为0.657,最佳单一因素为0.518,时效性为0.368;所有配对差异的95%自助法置信区间均大于零,而基于相同因素的神经网络模型与线性模型性能相当。学习得到的权重具有可解释性——可靠性、情感强度及自我/用户相关性占主导地位,而查询时的目标相似性在遗忘决策中被恰当地降低了权重。一项带有植入混淆变量的受控合成任务证实,学习器能够恢复分离性权重(保留率为1.00),而统一权重则失败(保留率为0.62)。该研究的基础代码已开源;所有实验均在单CPU上运行且无需调用API。

0
下载
关闭预览

相关内容

ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
9+阅读 · 5月28日
大语言模型持续学习:方法、挑战与机遇
专知会员服务
20+阅读 · 3月16日
大语言模型的终身学习综述
专知会员服务
76+阅读 · 2024年6月15日
KnowledGPT:基于知识库的检索和存储访问增强大型语言模型
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
8+阅读 · 6月15日
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员