Long-term conversational memory is a core capability for LLM-based dialogue systems, yet existing benchmarks and evaluation protocols primarily focus on surface-level factual recall. In realistic interactions, appropriate responses often depend on implicit constraints such as user state, goals, or values that are not explicitly queried later. To evaluate this setting, we introduce \textbf{LoCoMo-Plus}, a benchmark for assessing cognitive memory under cue--trigger semantic disconnect, where models must retain and apply latent constraints across long conversational contexts. We further show that conventional string-matching metrics and explicit task-type prompting are misaligned with such scenarios, and propose a unified evaluation framework based on constraint consistency. Experiments across diverse backbone models, retrieval-based methods, and memory systems demonstrate that cognitive memory remains challenging and reveals failures not captured by existing benchmarks. Our code and evaluation framework are publicly available at: https://github.com/xjtuleeyf/Locomo-Plus.


翻译:长期对话记忆是基于大语言模型(LLM)对话系统的核心能力,然而现有的基准测试和评估协议主要关注表层的事实性回忆。在实际交互中,恰当的回应往往依赖于隐含的约束条件,例如用户状态、目标或价值观,而这些信息在后续对话中并不会被明确查询。为评估此场景,我们引入了 **LoCoMo-Plus**,一个用于评估线索-触发语义脱节情境下认知记忆的基准测试。在该基准中,模型必须在长对话上下文中保持并应用潜在的约束条件。我们进一步表明,传统的字符串匹配指标和显式的任务类型提示与此类场景不匹配,并提出了一种基于约束一致性的统一评估框架。在不同骨干模型、基于检索的方法以及记忆系统上的实验表明,认知记忆仍然具有挑战性,并揭示了现有基准测试未能捕捉到的失败案例。我们的代码和评估框架已在以下网址公开:https://github.com/xjtuleeyf/Locomo-Plus。

0
下载
关闭预览

相关内容

智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
大型语言模型(LLM)赋能的知识图谱构建:综述
专知会员服务
54+阅读 · 2025年10月24日
LLM/智能体作为数据分析师:综述
专知会员服务
36+阅读 · 2025年9月30日
迈向LLM时代的可泛化评估:超越基准的综述
专知会员服务
22+阅读 · 2025年4月29日
《以人为中心的大型语言模型(LLM)研究综述》
专知会员服务
41+阅读 · 2024年11月25日
知识在检索式对话系统的应用
微信AI
32+阅读 · 2018年9月20日
一文详解LSTM网络
论智
18+阅读 · 2018年5月2日
一文读懂智能对话系统
数据派THU
16+阅读 · 2018年1月27日
赛尔原创 | 对话系统评价方法综述
哈工大SCIR
11+阅读 · 2017年11月13日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员