A retrieval-augmented generation (RAG) system deployed over a multi-author institutional corpus can give a different answer to the same question depending on which source it retrieves -- a failure mode the dominant single-gold-answer paradigm cannot diagnose. We argue that source-dependence is a missing axis of NLP evaluation, and that auditing it means shifting the unit of evaluation from answer correctness to the inter-source relationship. We make this concrete in transplant patient education, where institutional sources demonstrably disagree, releasing three artefacts: TransplantQA, a benchmark of real patient questions, each answered by grounding generation in multiple institutional handbooks as candidate sources; HERO-QA, a hierarchical retrieval strategy that grounds and audits each answer; and a structured-output judge that scores inter-source relationships on a validated 5-label taxonomy. At scale, better retrieval reveals far more disagreement than prior estimates suggested -- understating its prevalence, not its intensity. The framework is domain-agnostic and transfers to legal and educational RAG: measuring source-dependence is a responsibility for deployed multi-source NLP generally.


翻译:检索增强生成系统部署于多作者机构语料库时,同一问题可能因检索来源不同而给出不同答案——这一失效模式是主流单一正确答案范式无法诊断的。我们认为来源依赖性是NLP评估缺失的一个维度,对其进行审计意味着将评估单元从答案正确性转向来源间关系。我们在移植患者教育场景中具体化这一观点(该领域机构来源存在显著分歧),并发布三项成果:TransplantQA基准测试集(包含真实患者问题,每个问题通过将生成过程锚定于多个机构手册作为候选来源进行回答)、HERO-QA分层检索策略(可锚定并审计每个答案),以及一个结构化输出评判器(基于经过验证的五标签分类法对来源间关系进行评分)。在大规模评估中,更优的检索揭示了比先前估计多得多的分歧——低估的是其普遍性而非强度。该框架具有领域无关性,可迁移至法律与教育领域的RAG系统:对来源依赖性的测量是部署多源NLP系统的普遍责任。

0
下载
关闭预览

相关内容

【博士论文】用于化学结构抽取的多模态文档理解
专知会员服务
9+阅读 · 2025年10月12日
检索增强生成(RAG)与推理的协同作用:一项系统综述
专知会员服务
16+阅读 · 2025年4月27日
金融领域自然语言处理研究资源大列表
专知
13+阅读 · 2020年2月27日
标签间相关性在多标签分类问题中的应用
人工智能前沿讲习班
23+阅读 · 2019年6月5日
面试题:Word2Vec中为什么使用负采样?
七月在线实验室
46+阅读 · 2019年5月16日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 世界动作模型:少做梦,多行动
专知会员服务
3+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
5+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
4+阅读 · 6月23日
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
【博士论文】用于化学结构抽取的多模态文档理解
专知会员服务
9+阅读 · 2025年10月12日
检索增强生成(RAG)与推理的协同作用:一项系统综述
专知会员服务
16+阅读 · 2025年4月27日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员