Existing benchmarks treat multi-turn conversation and reasoning-intensive retrieval separately, yet real-world information seeking requires both. To bridge this gap, we present a benchmark for reasoning-based conversational information retrieval comprising 707 conversations (2,971 turns) across eleven domains. To ensure quality, our Decomposition-and-Verification framework transforms complex queries into fact-grounded multi-turn dialogues through multi-level validation, where atomic facts are verified against sources and explicit retrieval reasoning is generated for each turn. Comprehensive evaluation reveals that combining conversation history with reasoning doubles retrieval performance (Baseline .236 $\rightarrow$ History+Reasoning .479 nDCG@10), while reasoning-specialized models substantially outperform dense encoders. Despite these gains, further analysis highlights that implicit reasoning remains challenging, particularly when logical connections are not explicitly stated in the text.


翻译:现有基准将多轮对话与推理密集型检索分开处理,然而真实世界的信息获取需求往往同时包含两者。为弥合这一差距,我们提出了一个基于推理的对话式信息检索基准,涵盖十一个领域的707段对话(共2,971轮次)。为确保质量,我们通过分解与验证框架将复杂查询转化为基于事实的多轮对话,该框架采用多级验证机制:原子事实需依据信源进行核验,并为每一轮次生成显式的检索推理过程。综合评估表明,将对话历史与推理结合可使检索性能翻倍(基线 .236 $\rightarrow$ 历史+推理 .479 nDCG@10),而专门针对推理优化的模型显著优于稠密编码器。尽管取得这些进展,进一步分析指出隐式推理仍具挑战性,尤其在文本未明确表述逻辑关联时更为突出。

0
下载
关闭预览

相关内容

【CVPR2024】SHiNe:用于开放词汇目标检测的语义层次枢纽
专知会员服务
14+阅读 · 2024年5月18日
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
【ICML2020】对比多视角表示学习
专知
19+阅读 · 2020年6月28日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员