Long-term conversational memory is a retrieval workload classical IR was not built for: the index grows during the query stream, query types shift intra-session, and the latency budget per retrieval is sub-10 ms. Lucene-class engines treat the index as static and the query as stateless, leaving the workload's structure unexploited. AgentIR treats fusion as a per-query decision along two axes: which fusion to apply (BM25, Dense, RRF, or agent-aware RRF), and whether the ~52 ms dense channel is worth running at all. The second axis is a confidence-triggered cascade router that decides from the BM25 top-k margin alone and re-tunes across workloads without retraining. On LongMemEval (n=500), where the dense channel does add information, the cascade skips 63% of queries at parity LLM-judged accuracy (2.67x faster under two judges, paired bootstrap p>=0.88); per-qtype thresholds extend this to 5.76x under 5-fold cross-validation. On LoCoMo (n=1,982), where BM25 alone is already the strongest single system, the same trigger auto-tunes to a 100% skip rate (132x faster, +0.089 Hit@5). Capacity on a shared 8-core VM rises from ~154 to ~1,400 concurrent agents (9x). Underneath the cascade, a time-partitioned index does O(log 1/epsilon) work independent of corpus size: 1234x corpus growth costs only 3.6x latency, ending in 1769x over sequential at sub-100 us p50 on 5M records. At parity quality with Lucene on 9 BEIR datasets up to 8.8M docs, the substrate runs 10x geo-mean over Pyserini 8T and 11x over PISA-1T BlockMax-WAND; an A100 reaches 1.8-39x over Pyserini 8T; chunked index build sustains 56.8K docs/sec on MS MARCO. Three subtle BM25/GPU correctness pitfalls that silently regress nDCG@10 by 6-8x are documented and fixed; post-fix CPU and GPU agree within 0.0002 nDCG@10 on all eight datasets that fit a single A100.


翻译:长期对话记忆是一种传统信息检索系统未曾设计的检索工作负载:索引在查询流中持续增长,查询类型在会话内动态变化,每次检索的延迟预算低于10毫秒。基于Lucene的引擎将索引视为静态、查询视为无状态,未能利用工作负载的结构特性。AgentIR将融合策略视为沿两个维度的逐查询决策:采用何种融合方式(BM25、稠密检索、RRF或智能体感知RRF),以及是否值得运行约52毫秒的稠密检索通道。第二个维度采用置信度触发的级联路由器,仅通过BM25的top-k间隔进行决策,并能在不同工作负载间自适应调整而无需重新训练。在LongMemEval数据集(n=500)上,当稠密通道确实提供信息增益时,该级联机制在LLM评判准确率持平的情况下跳过了63%的查询(在双评判器下速度提升2.67倍,配对bootstrap检验p≥0.88);基于查询类型的阈值调整在五折交叉验证下将加速比提升至5.76倍。在LoCoMo数据集(n=1,982)上,当BM25本身已是最强单一系统时,同一触发机制自动调整至100%跳过率(速度提升132倍,Hit@5提升0.089)。共享8核虚拟机的容量从约154个提升至约1,400个并发智能体(9倍)。在级联机制底层,时间分区索引的计算复杂度为O(log 1/ε),与语料库规模无关:1234倍语料增长仅带来3.6倍延迟增长,最终在500万条记录上实现比顺序扫描快1769倍的性能,p50延迟低于100微秒。在最高880万文档的9个BEIR数据集上,本基座在保持与Lucene同等质量的同时,几何平均速度分别为Pyserini 8T的10倍和PISA-1T BlockMax-WAND的11倍;A100 GPU上达到Pyserini 8T的1.8-39倍;在MS MARCO上分块索引构建持续维持56.8K文档/秒的处理速度。本文记录并修复了三个微妙但会导致nDCG@10降低6-8倍的BM25/GPU正确性陷阱;修复后,在单块A100可容纳的全部八个数据集上,CPU与GPU的nDCG@10差异不超过0.0002。

0
下载
关闭预览

相关内容

MMA:多模态记忆智能体
专知会员服务
10+阅读 · 2月19日
【ICML2020-华为港科大】RNN和LSTM有长期记忆吗?
专知会员服务
78+阅读 · 2020年6月25日
【学生论坛】详解记忆增强神经网络
中国科学院自动化研究所
106+阅读 · 2018年11月15日
知识在检索式对话系统的应用
微信AI
32+阅读 · 2018年9月20日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
3+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员