Information retrieval (IR) in dynamic data streams is a crucial task, as shifts in data distribution degrade the performance of AI-powered IR systems. To mitigate this issue, memory-based continual learning has been widely adopted for IR. However, existing methods rely on a fixed set of queries with ground-truth documents, which limits generalization to unseen data, making them impractical for real-world applications. To enable more effective learning with unseen topics of a new corpus without ground-truth labels, we propose CREAM, a self-supervised framework for memory-based continual retrieval. CREAM captures the evolving semantics of streaming queries and documents into dynamically structured soft memory and leverages it to adapt to both seen and unseen topics in an unsupervised setting. We realize this through three key techniques: fine-grained similarity estimation, regularized cluster prototyping, and stratified coreset sampling. Experiments on two benchmark datasets demonstrate that CREAM exhibits superior adaptability and retrieval accuracy, outperforming the strongest method in a label-free setting by 27.79% in Success@5 and 44.5% in Recall@10 on average, and achieving performance comparable to or even exceeding that of supervised methods.


翻译:动态数据流中的信息检索是一项关键任务,因为数据分布的漂移会降低基于人工智能的检索系统的性能。为缓解此问题,基于内存的持续学习已被广泛用于信息检索。然而,现有方法依赖于一组固定的带有真实标注文档的查询,这限制了对未见数据的泛化能力,使其在实际应用中不切实际。为了在缺乏真实标签的情况下,针对新语料库的未见主题实现更有效的学习,我们提出了CREAM,一个基于内存的自监督持续检索框架。CREAM将流式查询和文档的演化语义捕获到动态结构的软内存中,并利用该内存以无监督方式适应已见和未见主题。我们通过三项关键技术实现这一点:细粒度相似性估计、正则化聚类原型构建和分层核心集采样。在两个基准数据集上的实验表明,CREAM展现出卓越的适应性和检索准确性,在无标签设置下,其Success@5和Recall@10指标平均分别超出最强基线方法27.79%和44.5%,并且达到了与有监督方法相当甚至更优的性能。

0
下载
关闭预览

相关内容

【AAAI2025】TimeDP:通过领域提示学习生成多领域时间序列
ChatAug: 利用ChatGPT进行文本数据增强
专知会员服务
81+阅读 · 2023年3月4日
Python图像处理,366页pdf,Image Operators Image Processing in Python
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员