Retrieval-Augmented Generation (RAG) has emerged as a powerful framework for knowledge-intensive tasks, yet its effectiveness in long-context scenarios is often bottlenecked by the retriever's inability to distinguish sparse yet crucial evidence. Standard retrievers, optimized for query-document similarity, frequently fail to align with the downstream goal of generating a precise answer. To bridge this gap, we propose a novel fine-tuning framework that optimizes the retriever for Answer Alignment. Specifically, we first identify high-quality positive chunks by evaluating their sufficiency to generate the correct answer. We then employ a curriculum-based contrastive learning scheme to fine-tune the retriever. This curriculum leverages LLM-constructed Knowledge Graphs (KGs) to generate augmented queries, which in turn mine progressively challenging hard negatives. This process trains the retriever to distinguish the answer-sufficient positive chunks from these nuanced distractors, enhancing its generalization. Extensive experiments on 10 datasets from the Ultradomain and LongBench benchmarks demonstrate that our fine-tuned retriever achieves state-of-the-art performance, improving 14.5\% over the base model without substantial architectural modifications and maintaining strong efficiency for long-context RAG. Our work presents a robust and effective methodology for building truly answer-centric retrievers. Source Code is available on https://github.com/valleysprings/ARK/.


翻译:检索增强生成(RAG)已成为知识密集型任务的一个强大框架,但其在长上下文场景中的有效性常受限于检索器难以区分稀疏却关键的证据。标准的检索器通常针对查询-文档相似性进行优化,往往无法与生成精确答案的下游目标对齐。为弥合这一差距,我们提出了一种新颖的微调框架,旨在优化检索器以实现答案对齐。具体而言,我们首先通过评估文本块是否足以生成正确答案来识别高质量的正样本块。随后,我们采用基于课程的对比学习方案对检索器进行微调。该课程利用大语言模型构建的知识图谱(KG)来生成增强查询,进而挖掘逐步具有挑战性的困难负样本。这一过程训练检索器从这些微妙的干扰项中区分出足以支撑答案的正样本块,从而提升其泛化能力。在Ultradomain和LongBench基准测试的10个数据集上进行的大量实验表明,我们微调后的检索器实现了最先进的性能,在未对架构进行重大修改的情况下,比基础模型提升了14.5%,并在长上下文RAG中保持了强大的效率。我们的工作为构建真正以答案为中心的检索器提供了一种稳健且有效的方法。源代码可在 https://github.com/valleysprings/ARK/ 获取。

0
下载
关闭预览

相关内容

【新书】Essential GraphRAG: 知识图谱增强的RAG
专知会员服务
33+阅读 · 2025年7月17日
【SIGIR2025教程】动态与参数化检索增强生成
专知会员服务
17+阅读 · 2025年7月14日
迈向可信的检索增强生成:大语言模型综述
专知会员服务
30+阅读 · 2025年2月12日
定制化大型语言模型的图检索增强生成综述
专知会员服务
38+阅读 · 2025年1月28日
图增强生成(GraphRAG)
专知会员服务
35+阅读 · 2025年1月4日
图检索增强生成研究进展
专知会员服务
37+阅读 · 2024年11月5日
【WWW2024】元认知检索-增强大型语言模型
专知会员服务
50+阅读 · 2024年2月26日
【AAAI2023】用于图对比学习的谱特征增强
专知
20+阅读 · 2022年12月11日
基于知识图谱的问答系统
PaperWeekly
21+阅读 · 2021年2月8日
搜索query意图识别的演进
DataFunTalk
13+阅读 · 2020年11月15日
AmpliGraph:知识图谱表示学习工具包
专知
40+阅读 · 2019年4月6日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【新书】Essential GraphRAG: 知识图谱增强的RAG
专知会员服务
33+阅读 · 2025年7月17日
【SIGIR2025教程】动态与参数化检索增强生成
专知会员服务
17+阅读 · 2025年7月14日
迈向可信的检索增强生成:大语言模型综述
专知会员服务
30+阅读 · 2025年2月12日
定制化大型语言模型的图检索增强生成综述
专知会员服务
38+阅读 · 2025年1月28日
图增强生成(GraphRAG)
专知会员服务
35+阅读 · 2025年1月4日
图检索增强生成研究进展
专知会员服务
37+阅读 · 2024年11月5日
【WWW2024】元认知检索-增强大型语言模型
专知会员服务
50+阅读 · 2024年2月26日
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员