Retrieval-Augmented Generation (RAG) has been used in question answering (QA) systems to improve performance when relevant information is in one (single-hop) or multiple (multi-hop) passages. However, many real life scenarios (e.g. dealing with financial, legal, medical reports) require checking all documents for relevant information without a clear stopping condition. We term these pluri-hop questions, and formalize them by 3 conditions - recall sensitivity, exhaustiveness, and exactness. To study this setting, we introduce PluriHopWIND, a multilingual diagnostic benchmark of 48 pluri-hop questions over 191 real wind-industry reports, with high repetitiveness to reflect the challenge of distractors in real-world datasets. Naive, graph-based, and multimodal RAG methods only reach up to 40% statement-wise F1 on PluriHopWIND. Motivated by this, we propose PluriHopRAG, which learns from synthetic examples to decompose queries according to corpus-specific document structure, and employs a cross-encoder filter at the document level to minimize costly LLM reasoning. We test PluriHopRAG on PluriHopWIND and the Loong benchmark built on financial, legal and scientific reports. On PluriHopWIND, our method shows 18-52% F1 score improvement across base LLMs, while on Loong, we show 33% improvement over long-context reasoning and 52% improvement over naive RAG.


翻译:检索增强生成(RAG)已被用于问答(QA)系统中,以在相关信息存在于单个(单跳)或多个(多跳)段落中时提升性能。然而,许多现实场景(如处理财务、法律、医疗报告)需要在不具备明确停止条件的情况下检查所有文档以获取相关信息。我们将这类问题称为“多跳密集型”(pluri-hop)问题,并通过三个条件——召回敏感性(recall sensitivity)、全面性(exhaustiveness)和精确性(exactness)——对其进行形式化定义。为研究该场景,我们提出了PluriHopWIND,一个包含48个多跳密集型问题、覆盖191份真实风电行业报告的多语言诊断基准,其高重复性旨在反映现实数据集中干扰项的挑战。朴素RAG、基于图的RAG以及多模态RAG方法在PluriHopWIND上的语句级F1分数最高仅为40%。受此启发,我们提出PluriHopRAG,该方法通过从合成样本中学习,根据语料特定文档结构分解查询,并在文档级别采用交叉编码器(cross-encoder)过滤器以减少昂贵的LLM推理开销。我们在PluriHopWIND和基于财务、法律及科学报告构建的Loong基准上测试了PluriHopRAG。在PluriHopWIND上,我们的方法在不同基础LLM中实现了18-52%的F1分数提升;在Loong上,相较于长上下文推理和朴素RAG,分别实现了33%和52%的提升。

0
下载
关闭预览

相关内容

检索增强生成(RAG)技术,261页slides
专知会员服务
42+阅读 · 2025年10月16日
【新书】Essential GraphRAG: 知识图谱增强的RAG
专知会员服务
35+阅读 · 2025年7月17日
迈向可信的检索增强生成:大语言模型综述
专知会员服务
30+阅读 · 2025年2月12日
图增强生成(GraphRAG)
专知会员服务
35+阅读 · 2025年1月4日
RAG 与 LLMs 的结合 - 迈向检索增强的大型语言模型综述
专知会员服务
101+阅读 · 2024年5月13日
《大型语言模型中基于检索的文本生成》综述
专知会员服务
60+阅读 · 2024年4月18日
搜索query意图识别的演进
DataFunTalk
13+阅读 · 2020年11月15日
Query 理解和语义召回在知乎搜索中的应用
DataFunTalk
25+阅读 · 2020年1月2日
读扩散?写扩散?推拉架构一文搞定!
架构师之路
17+阅读 · 2019年2月1日
论文浅尝 | 常识用于回答生成式多跳问题
开放知识图谱
16+阅读 · 2018年11月24日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
检索增强生成(RAG)技术,261页slides
专知会员服务
42+阅读 · 2025年10月16日
【新书】Essential GraphRAG: 知识图谱增强的RAG
专知会员服务
35+阅读 · 2025年7月17日
迈向可信的检索增强生成:大语言模型综述
专知会员服务
30+阅读 · 2025年2月12日
图增强生成(GraphRAG)
专知会员服务
35+阅读 · 2025年1月4日
RAG 与 LLMs 的结合 - 迈向检索增强的大型语言模型综述
专知会员服务
101+阅读 · 2024年5月13日
《大型语言模型中基于检索的文本生成》综述
专知会员服务
60+阅读 · 2024年4月18日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员