Existing temporal QA benchmarks focus on simple fact-seeking queries from news corpora, while reasoning-intensive retrieval benchmarks lack temporal grounding. However, real-world information needs often require reasoning about temporal evolution and synthesizing evidence across time periods. We introduce TEMPO, the first benchmark combining temporal reasoning with reasoning-intensive retrieval across 13 domains. TEMPO features: (1) 1,730 complex queries requiring deep temporal reasoning such as tracking changes, identifying trends, or comparing cross-period evidence; (2) step-wise retrieval planning with 3,976 decomposed steps and gold documents mapped to each step for multi-hop evaluation; and (3) novel temporal metrics including Temporal Coverage@k and Temporal Precision@k measuring whether results span required time periods. Evaluation of 12 retrieval systems reveals substantial challenges: the best model (DiVeR) achieves only 32.0 NDCG@10 and 71.4\% Temporal Coverage@10, demonstrating difficulty in retrieving temporally complete evidence. We believe TEMPO provides a challenging benchmark for improving temporal reasoning in retrieval and RAG systems. Our code and data are available at https://github.com/tempo-bench/Tempo. See also our official website: https://tempo-bench.github.io/.


翻译:现有的时序问答基准主要关注新闻语料库中的简单事实查询,而推理密集型检索基准则缺乏时序基础。然而,现实世界的信息需求往往需要推理时序演变并综合跨时间段的证据。我们提出了TEMPO,这是首个在13个领域内结合时序推理与推理密集型检索的基准。TEMPO具有以下特点:(1)包含1,730个需要深度时序推理的复杂查询,例如追踪变化、识别趋势或比较跨时期证据;(2)分步检索规划,包含3,976个分解步骤,并为每个步骤映射了黄金文档以进行多跳评估;(3)新颖的时序评估指标,包括Temporal Coverage@k和Temporal Precision@k,用于衡量结果是否覆盖所需的时间段。对12个检索系统的评估揭示了巨大挑战:最佳模型(DiVeR)仅达到32.0 NDCG@10和71.4% Temporal Coverage@10,表明在检索时序完整证据方面存在困难。我们相信TEMPO为改进检索和RAG系统中的时序推理能力提供了一个具有挑战性的基准。我们的代码和数据可在https://github.com/tempo-bench/Tempo获取。另请参见我们的官方网站:https://tempo-bench.github.io/。

0
下载
关闭预览

相关内容

大语言模型在时间序列中的推理与智能体系统综述
专知会员服务
30+阅读 · 2025年9月16日
基于大语言模型的时序知识图谱推理模型蒸馏方法
专知会员服务
36+阅读 · 2025年1月10日
推荐|上交大推出Texygen:文本生成模型的基准测试平台
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关VIP内容
大语言模型在时间序列中的推理与智能体系统综述
专知会员服务
30+阅读 · 2025年9月16日
基于大语言模型的时序知识图谱推理模型蒸馏方法
专知会员服务
36+阅读 · 2025年1月10日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员