Recent conversational memory systems invest heavily in LLM-based structuring at ingestion time and learned retrieval policies at query time. We show that neither is necessary. SmartSearch retrieves from raw, unstructured conversation history using a fully deterministic pipeline: NER-weighted substring matching for recall, rule-based entity discovery for multi-hop expansion, and a CrossEncoder+ColBERT rank fusion stage -- the only learned component -- running on CPU in ~650ms. Oracle analysis on two benchmarks identifies a compilation bottleneck: retrieval recall reaches 98.6%, but without intelligent ranking only 22.5% of gold evidence survives truncation to the token budget. With score-adaptive truncation and no per-dataset tuning, SmartSearch achieves 93.5% on LoCoMo and 88.4% on LongMemEval-S, exceeding all known memory systems under the same evaluation protocol on both benchmarks while using 8.5x fewer tokens than full-context baselines.


翻译:近期对话记忆系统在摄入时大量投入基于LLM的结构化处理,并在查询时采用学习型检索策略。本文证明两者均非必需。SmartSearch通过完全确定性的流程从原始非结构化对话历史中检索:采用NER加权的子串匹配实现召回,基于规则的实体发现进行多跳扩展,以及CrossEncoder+ColBERT排序融合阶段——这是唯一的学习组件——在CPU上以约650毫秒运行。在两个基准测试上的Oracle分析揭示了编译瓶颈:检索召回率达到98.6%,但若缺乏智能排序,在截断至令牌预算后仅有22.5%的关键证据得以保留。通过分数自适应截断技术且无需针对各数据集调优,SmartSearch在LoCoMo上达到93.5%准确率,在LongMemEval-S上达到88.4%准确率,在相同评估协议下超越两个基准测试中所有已知记忆系统,同时比全上下文基线少用8.5倍令牌数。

0
下载
关闭预览

相关内容

排序是计算机内经常进行的一种操作,其目的是将一组“无序”的记录序列调整为“有序”的记录序列。分内部排序和外部排序。若整个排序过程不需要访问外存便能完成,则称此类排序问题为内部排序。反之,若参加排序的记录数量很大,整个序列的排序过程不可能在内存中完成,则称此类排序问题为外部排序。内部排序的过程是一个逐步扩大记录的有序序列长度的过程。
KnowledGPT:基于知识库的检索和存储访问增强大型语言模型
专知会员服务
16+阅读 · 2021年6月4日
【论文笔记】基于强化学习的人机对话
专知
20+阅读 · 2019年9月21日
知识在检索式对话系统的应用
微信AI
32+阅读 · 2018年9月20日
一文读懂智能对话系统
数据派THU
16+阅读 · 2018年1月27日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
Arxiv
0+阅读 · 2月10日
VIP会员
最新内容
技术、多域威慑与海上战争(报告)
专知会员服务
1+阅读 · 今天15:04
“在云端防御”:提升北约数据韧性(报告)
专知会员服务
1+阅读 · 今天14:54
人工智能及其在海军行动中的整合(综述)
专知会员服务
0+阅读 · 今天14:07
美军MAVEN项目全面解析:算法战架构
专知会员服务
16+阅读 · 今天8:36
从俄乌战场看“马赛克战”(万字长文)
专知会员服务
10+阅读 · 今天8:19
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员