Information retrieval (IR) benchmarks typically follow the Cranfield paradigm, relying on static and predefined corpora. However, temporal changes in technical corpora, such as API deprecations and code reorganizations, can render existing benchmarks stale. In our work, we investigate how temporal corpus drift affects FreshStack, a retrieval benchmark focused on technical domains. We examine two independent corpus snapshots of FreshStack from October 2024 and October 2025 to answer questions about LangChain. Our analysis shows that all but one query posed in 2024 remain fully supported by the 2025 corpus, as relevant documents "migrate" from LangChain to competitor repositories, such as LlamaIndex. Next, we compare the accuracy of retrieval models on both snapshots and observe only minor shifts in model rankings, with overall strong correlation of up to 0.978 Kendall $τ$ at Recall@50. These results suggest that retrieval benchmarks re-judged with evolving temporal corpora can remain reliable for retrieval evaluation. We publicly release all our artifacts at https://github.com/fresh-stack/driftbench.


翻译:信息检索(IR)基准通常遵循Cranfield范式,依赖于静态且预定义的语料库。然而,技术语料库中的时间性变化(例如API弃用和代码重组)可能导致现有基准过时。在本研究中,我们探讨了时间性语料漂移如何影响专注于技术领域的检索基准FreshStack。我们检查了FreshStack在2024年10月和2025年10月的两个独立语料快照,以回答关于LangChain的问题。我们的分析表明,除一个查询外,2024年提出的所有查询在2025年的语料库中仍得到完全支持,因为相关文档从LangChain“迁移”到了竞争对手的代码库(如LlamaIndex)。接着,我们比较了检索模型在两个快照上的准确性,观察到模型排名仅有微小变化,在Recall@50指标下总体强相关性高达Kendall $τ$ 0.978。这些结果表明,基于随时间演化的语料库重新评估的检索基准,对于检索评估仍可保持可靠性。我们在https://github.com/fresh-stack/driftbench公开发布了所有相关资源。

0
下载
关闭预览

相关内容

【ICML2025】时序分布漂移下的自适应估计与学习
专知会员服务
12+阅读 · 2025年5月25日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
【Flink】基于 Flink 的流式数据实时去重
AINLP
14+阅读 · 2020年9月29日
从锚点到关键点,最新的目标检测方法发展趋势
计算机视觉life
17+阅读 · 2019年8月20日
使用 FastAI 和即时频率变换进行音频分类
AI研习社
11+阅读 · 2019年5月9日
ETP:精确时序动作定位
极市平台
13+阅读 · 2018年5月25日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
2026“人工智能+”行业发展蓝皮书(附下载)
专知会员服务
5+阅读 · 今天12:11
《强化学习数学基础》
专知会员服务
3+阅读 · 今天12:07
“Maven计划”的发展演变之“Maven智能系统”应用
《无人机革命:来自俄乌战场的启示》(报告)
专知会员服务
7+阅读 · 今天6:48
《实现联合作战能力所需的技术》58页报告
专知会员服务
4+阅读 · 今天6:30
以色列运用人工智能优化空袭警报系统
专知会员服务
4+阅读 · 今天6:20
以色列在多条战线部署AI智能体
专知会员服务
5+阅读 · 今天6:12
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员