Conversational-memory systems increasingly transform dialogue history into facts, summaries, timelines, and other source-linked descendants, so a single source turn can coexist with several derived memories in the same retrieval index. This raises an underspecified evaluation question: which stored form should receive retrieval credit? We show that this scoring-target choice is often left implicit and can materially change benchmark conclusions. We present TIAP, a fixed-output audit that rescores saved ranked outputs under three targets -- Raw, Source, and Canonical -- without rerunning retrieval. On LoCoMo and LongMemEval-S, switching only the credited target changes nDCG on 83.4--94.0 percent of shared queries, flips target orderings on Mem0 and MemoryOS transfer runs, and reverses parser-density recommendations. A 1,902-case semantic audit further shows that relaxed source-linked credit is fully justified only 29.2 percent of the time, despite high rubric reliability in a validation subset. These results reveal target noninvariance: conclusions about memory architectures can silently flip with a single benchmark-design choice. Conversational-memory papers should therefore define and report the scoring target explicitly.


翻译:对话记忆系统日益将对话历史转化为事实、摘要、时间线及其他与源关联的衍生内容,因此,单一源轮次可能与其多个衍生记忆共存于同一检索索引中。这引发了一个未充分明确的评估问题:哪种存储形式应获得检索信用?我们表明,这种评分目标选择通常被隐含处理,且可能实质性地改变基准测试的结论。我们提出TIAP,一种固定输出审计方法,在无需重新运行检索的情况下,对已保存的排序输出在三个目标——原始、源和规范——下重新评分。在LoCoMo和LongMemEval-S上,仅更改值得信用目标就会改变83.4%至94.0%的共享查询上的nDCG,翻转Mem0和MemoryOS迁移运行中的目标排序,并逆转解析器密度推荐。一项包含1902个案例的语义审计进一步表明,尽管验证子集具有高编码可靠性,但宽松的源关联信用仅在29.2%的情况下完全合理。这些结果揭示了目标非不变性:关于记忆架构的结论可能因单一基准设计选择而悄然逆转。因此,对话记忆论文应明确界定并报告评分目标。

0
下载
关闭预览

相关内容

大语言模型评估技术研究进展
专知会员服务
49+阅读 · 2024年7月9日
《大型语言模型归因》综述
专知会员服务
75+阅读 · 2023年11月8日
【CIKM2021】基于等效共享记忆研究的神经会话生成模型
专知会员服务
10+阅读 · 2021年11月19日
专知会员服务
16+阅读 · 2021年6月4日
论文浅尝 | 基于Universal Schema与Memory Network的知识+文本问答
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员