Information retrieval (IR) in dynamic data streams is emerging as a challenging task, as shifts in data distribution degrade the performance of AI-powered IR systems. To mitigate this issue, memory-based continual learning has been widely adopted for IR. However, existing methods rely on a fixed set of queries with ground-truth relevant documents, which limits generalization to unseen queries and documents, making them impractical for real-world applications. To enable more effective learning with unseen topics of a new corpus without ground-truth labels, we propose CREAM, a self-supervised framework for memory-based continual retrieval. CREAM captures the evolving semantics of streaming queries and documents into dynamically structured soft memory and leverages it to adapt to both seen and unseen topics in an unsupervised setting. We realize this through three key techniques: fine-grained similarity estimation, regularized cluster prototyping, and stratified coreset sampling. Experiments on two benchmark datasets demonstrate that CREAM exhibits superior adaptability and retrieval accuracy, outperforming the strongest method in a label-free setting by 27.79\% in Success@5 and 44.5\% in Recall@10 on average, and achieving performance comparable to or even exceeding that of supervised methods.


翻译:动态数据流中的信息检索正逐渐成为一个具有挑战性的任务,因为数据分布的漂移会降低基于人工智能的检索系统性能。为缓解此问题,基于内存的持续学习方法已被广泛用于信息检索。然而,现有方法依赖于一组固定的查询及其对应的真实相关文档,这限制了对未见查询和文档的泛化能力,使其难以应用于实际场景。为了能在缺乏真实标签的情况下,针对新语料库的未见主题进行更有效的学习,我们提出了CREAM——一个基于内存的自监督持续检索框架。CREAM将流式查询和文档的演化语义捕获到动态结构的软内存中,并利用该内存以无监督方式适应已见和未见主题。我们通过三项关键技术实现这一目标:细粒度相似度估计、正则化聚类原型构建以及分层核心集采样。在两个基准数据集上的实验表明,CREAM展现出卓越的适应性和检索准确性:在无标签设置下,其Success@5和Recall@10指标平均分别超越最强基线方法27.79%和44.5%,并且达到了与有监督方法相当甚至更优的性能。

0
下载
关闭预览

相关内容

【AAAI2025】TimeDP:通过领域提示学习生成多领域时间序列
【KDD2024】HiGPT:异构图语言模型
专知会员服务
19+阅读 · 2024年7月9日
Python图像处理,366页pdf,Image Operators Image Processing in Python
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员