Same Question, Different Source, Different Answer: Auditing Source-Dependence in Medical Multi-Source RAG - 专知论文

会员服务 ·

0

多源 · 系统 · 相同 · NLP · 系统部署 ·

Same Question, Different Source, Different Answer: Auditing Source-Dependence in Medical Multi-Source RAG

翻译：相同问题，不同来源，不同答案：审计医学多源RAG中的来源依赖性

Yubo Li,Rema Padman,Ramayya Krishnan

A retrieval-augmented generation (RAG) system deployed over a multi-author institutional corpus can give a different answer to the same question depending on which source it retrieves -- a failure mode the dominant single-gold-answer paradigm cannot diagnose. We argue that source-dependence is a missing axis of NLP evaluation, and that auditing it means shifting the unit of evaluation from answer correctness to the inter-source relationship. We make this concrete in transplant patient education, where institutional sources demonstrably disagree, releasing three artefacts: TransplantQA, a benchmark of real patient questions, each answered by grounding generation in multiple institutional handbooks as candidate sources; HERO-QA, a hierarchical retrieval strategy that grounds and audits each answer; and a structured-output judge that scores inter-source relationships on a validated 5-label taxonomy. At scale, better retrieval reveals far more disagreement than prior estimates suggested -- understating its prevalence, not its intensity. The framework is domain-agnostic and transfers to legal and educational RAG: measuring source-dependence is a responsibility for deployed multi-source NLP generally.

翻译：检索增强生成系统部署于多作者机构语料库时，同一问题可能因检索来源不同而给出不同答案——这一失效模式是主流单一正确答案范式无法诊断的。我们认为来源依赖性是NLP评估缺失的一个维度，对其进行审计意味着将评估单元从答案正确性转向来源间关系。我们在移植患者教育场景中具体化这一观点（该领域机构来源存在显著分歧），并发布三项成果：TransplantQA基准测试集（包含真实患者问题，每个问题通过将生成过程锚定于多个机构手册作为候选来源进行回答）、HERO-QA分层检索策略（可锚定并审计每个答案），以及一个结构化输出评判器（基于经过验证的五标签分类法对来源间关系进行评分）。在大规模评估中，更优的检索揭示了比先前估计多得多的分歧——低估的是其普遍性而非强度。该框架具有领域无关性，可迁移至法律与教育领域的RAG系统：对来源依赖性的测量是部署多源NLP系统的普遍责任。

0

相关内容

【博士论文】用于化学结构抽取的多模态文档理解

【博士论文】用于化学结构抽取的多模态文档理解

专知会员服务

9+阅读 · 2025年10月12日

检索增强生成(RAG)与推理的协同作用：一项系统综述

检索增强生成(RAG)与推理的协同作用：一项系统综述

专知会员服务

16+阅读 · 2025年4月27日

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

专知会员服务

56+阅读 · 2024年8月22日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

复旦大学邱锡鹏等《自然语言处理范式迁移综述》论文，详述7大NLP范式：分类、匹配、SeqLab, MRC, Seq2Seq等

专知会员服务

54+阅读 · 2021年9月29日

最新《自然语言处理迁移学习》综述论文，A Survey on Transfer Learning in Natural Language Processing

最新《自然语言处理迁移学习》综述论文，A Survey on Transfer Learning in Natural Language Processing

专知会员服务

140+阅读 · 2020年7月10日

从多个自我监督任务中学习问题无关的语音表示，Learning Problem-agnostic Speech Representations from Multiple Self-supervised Tasks

从多个自我监督任务中学习问题无关的语音表示，Learning Problem-agnostic Speech Representations from Multiple Self-supervised Tasks

专知会员服务

17+阅读 · 2020年5月6日

深度神经网络模型的个体差异，Individual differences among deep neural network models

深度神经网络模型的个体差异，Individual differences among deep neural network models

专知会员服务

10+阅读 · 2020年1月11日

使用图卷积网络对多药副作用进行建模（Modeling polypharmacy side effects with graph convolutional networks）

使用图卷积网络对多药副作用进行建模（Modeling polypharmacy side effects with graph convolutional networks）

专知会员服务

36+阅读 · 2019年12月12日

基于图的word2vec负采样( GNEG:Graph-Based Negative Sampling for word2vec)

基于图的word2vec负采样( GNEG:Graph-Based Negative Sampling for word2vec)

专知会员服务

40+阅读 · 2019年11月23日

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

专知

11+阅读 · 2022年12月1日

金融领域自然语言处理研究资源大列表

金融领域自然语言处理研究资源大列表

专知

13+阅读 · 2020年2月27日

【论文】Awesome Relation Extraction Paper（关系抽取）（PART V）

【论文】Awesome Relation Extraction Paper（关系抽取）（PART V）

AINLP

38+阅读 · 2019年9月3日

【论文】Awesome Relation Extraction Paper（关系抽取）（PART IV）

【论文】Awesome Relation Extraction Paper（关系抽取）（PART IV）

AINLP

15+阅读 · 2019年8月26日

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

AINLP

40+阅读 · 2019年6月9日

标签间相关性在多标签分类问题中的应用

标签间相关性在多标签分类问题中的应用

人工智能前沿讲习班

23+阅读 · 2019年6月5日

面试题：Word2Vec中为什么使用负采样？

面试题：Word2Vec中为什么使用负采样？

七月在线实验室

46+阅读 · 2019年5月16日

最新NLP论文阅读列表，包括对话、问答、摘要、翻译等（附资源）

最新NLP论文阅读列表，包括对话、问答、摘要、翻译等（附资源）

THU数据派

11+阅读 · 2019年3月25日

资源警告！有人收罗了40个中文NLP词库，放到了GitHub上

资源警告！有人收罗了40个中文NLP词库，放到了GitHub上

量子位

15+阅读 · 2018年11月16日

【论文推荐】最新5篇自动问答相关论文——多关系自动问答、知识图谱联合实体和关系、生物医学问题、维基百科语料数据、多句式旅游推荐

【论文推荐】最新5篇自动问答相关论文——多关系自动问答、知识图谱联合实体和关系、生物医学问题、维基百科语料数据、多句式旅游推荐

专知

23+阅读 · 2018年1月17日

基于多源语义表示学习的社交媒体文本属性情感分类研究

国家自然科学基金

4+阅读 · 2017年12月31日

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

基于多源异构不确定数据的高效用信息挖掘的研究

国家自然科学基金

4+阅读 · 2015年12月31日

多重假设检验中的k-FWER控制

国家自然科学基金

0+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

复杂产品并行设计多源变更传播机理和路径优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

高维数据下多样本均值检验问题的研究

国家自然科学基金

0+阅读 · 2015年12月31日

考虑模型背景场与多源观测值自相关结构差异的根层土壤水分同化研究

国家自然科学基金

0+阅读 · 2015年12月31日

多源基因表达数据横向整合的统计方法比较

国家自然科学基金

0+阅读 · 2015年12月31日

大数据环境下融合多源信息的推荐系统关键问题研究

国家自然科学基金

6+阅读 · 2014年12月31日

CQC-RAG: Robust Retrieval-Augmented Generation via Cross-Query Consistency

Arxiv

0+阅读 · 6月11日

Evaluating Factual Density in Multi-Source RAG: A Study in Medical AI Accuracy

Arxiv

0+阅读 · 6月10日

When More Documents Hurt RAG: Mitigating Vector Search Dilution with Domain-Scoped, Model-Agnostic Retrieval

Arxiv

0+阅读 · 6月9日

Label Over Logic? How Source Cues Bias Human Fallacy Judgments More Than LLMs

Arxiv

0+阅读 · 6月3日

Evaluating Factual Density in Multi-Source RAG: A Study in Medical AI Accuracy

Arxiv

0+阅读 · 5月29日

Label Over Logic? How Source Cues Bias Human Fallacy Judgments More Than LLMs

Arxiv

0+阅读 · 5月28日

Separating Semantic Competition from Context Length in RAG Reading

Arxiv

0+阅读 · 5月26日

The Multilingual Curse at the Retrieval Layer: Evidence from Amharic

Arxiv

0+阅读 · 5月23日

Synthetic Sources?: Auditing Generative Search Engine Citations for Evidence of AI-Generated Sources

Arxiv

0+阅读 · 5月22日

Cited but Not Verified: Parsing and Evaluating Source Attribution in LLM Deep Research Agents

Arxiv

0+阅读 · 5月7日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

2+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

3+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

5+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

4+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

4+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

5+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

3+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

6+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

【博士论文】用于化学结构抽取的多模态文档理解

【博士论文】用于化学结构抽取的多模态文档理解

专知会员服务

9+阅读 · 2025年10月12日

检索增强生成(RAG)与推理的协同作用：一项系统综述

检索增强生成(RAG)与推理的协同作用：一项系统综述

专知会员服务

16+阅读 · 2025年4月27日

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

专知会员服务

56+阅读 · 2024年8月22日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

复旦大学邱锡鹏等《自然语言处理范式迁移综述》论文，详述7大NLP范式：分类、匹配、SeqLab, MRC, Seq2Seq等

专知会员服务

54+阅读 · 2021年9月29日

最新《自然语言处理迁移学习》综述论文，A Survey on Transfer Learning in Natural Language Processing

最新《自然语言处理迁移学习》综述论文，A Survey on Transfer Learning in Natural Language Processing

专知会员服务

140+阅读 · 2020年7月10日

从多个自我监督任务中学习问题无关的语音表示，Learning Problem-agnostic Speech Representations from Multiple Self-supervised Tasks

从多个自我监督任务中学习问题无关的语音表示，Learning Problem-agnostic Speech Representations from Multiple Self-supervised Tasks

专知会员服务

17+阅读 · 2020年5月6日

深度神经网络模型的个体差异，Individual differences among deep neural network models

深度神经网络模型的个体差异，Individual differences among deep neural network models

专知会员服务

10+阅读 · 2020年1月11日

使用图卷积网络对多药副作用进行建模（Modeling polypharmacy side effects with graph convolutional networks）

使用图卷积网络对多药副作用进行建模（Modeling polypharmacy side effects with graph convolutional networks）

专知会员服务

36+阅读 · 2019年12月12日

基于图的word2vec负采样( GNEG:Graph-Based Negative Sampling for word2vec)

基于图的word2vec负采样( GNEG:Graph-Based Negative Sampling for word2vec)

专知会员服务

40+阅读 · 2019年11月23日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

专知

11+阅读 · 2022年12月1日

金融领域自然语言处理研究资源大列表

金融领域自然语言处理研究资源大列表

专知

13+阅读 · 2020年2月27日

【论文】Awesome Relation Extraction Paper（关系抽取）（PART V）

【论文】Awesome Relation Extraction Paper（关系抽取）（PART V）

AINLP

38+阅读 · 2019年9月3日

【论文】Awesome Relation Extraction Paper（关系抽取）（PART IV）

【论文】Awesome Relation Extraction Paper（关系抽取）（PART IV）

AINLP

15+阅读 · 2019年8月26日

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

AINLP

40+阅读 · 2019年6月9日

标签间相关性在多标签分类问题中的应用

标签间相关性在多标签分类问题中的应用

人工智能前沿讲习班

23+阅读 · 2019年6月5日

面试题：Word2Vec中为什么使用负采样？

面试题：Word2Vec中为什么使用负采样？

七月在线实验室

46+阅读 · 2019年5月16日

最新NLP论文阅读列表，包括对话、问答、摘要、翻译等（附资源）

最新NLP论文阅读列表，包括对话、问答、摘要、翻译等（附资源）

THU数据派

11+阅读 · 2019年3月25日

资源警告！有人收罗了40个中文NLP词库，放到了GitHub上

资源警告！有人收罗了40个中文NLP词库，放到了GitHub上

量子位

15+阅读 · 2018年11月16日

【论文推荐】最新5篇自动问答相关论文——多关系自动问答、知识图谱联合实体和关系、生物医学问题、维基百科语料数据、多句式旅游推荐

【论文推荐】最新5篇自动问答相关论文——多关系自动问答、知识图谱联合实体和关系、生物医学问题、维基百科语料数据、多句式旅游推荐

专知

23+阅读 · 2018年1月17日

相关论文

CQC-RAG: Robust Retrieval-Augmented Generation via Cross-Query Consistency

Arxiv

0+阅读 · 6月11日

Evaluating Factual Density in Multi-Source RAG: A Study in Medical AI Accuracy

Arxiv

0+阅读 · 6月10日

When More Documents Hurt RAG: Mitigating Vector Search Dilution with Domain-Scoped, Model-Agnostic Retrieval

Arxiv

0+阅读 · 6月9日

Label Over Logic? How Source Cues Bias Human Fallacy Judgments More Than LLMs

Arxiv

0+阅读 · 6月3日

Evaluating Factual Density in Multi-Source RAG: A Study in Medical AI Accuracy

Arxiv

0+阅读 · 5月29日

Label Over Logic? How Source Cues Bias Human Fallacy Judgments More Than LLMs

Arxiv

0+阅读 · 5月28日

Separating Semantic Competition from Context Length in RAG Reading

Arxiv

0+阅读 · 5月26日

The Multilingual Curse at the Retrieval Layer: Evidence from Amharic

Arxiv

0+阅读 · 5月23日

Synthetic Sources?: Auditing Generative Search Engine Citations for Evidence of AI-Generated Sources

Arxiv

0+阅读 · 5月22日

Cited but Not Verified: Parsing and Evaluating Source Attribution in LLM Deep Research Agents

Arxiv

0+阅读 · 5月7日

相关基金

基于多源语义表示学习的社交媒体文本属性情感分类研究

国家自然科学基金

4+阅读 · 2017年12月31日

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

基于多源异构不确定数据的高效用信息挖掘的研究

国家自然科学基金

4+阅读 · 2015年12月31日

多重假设检验中的k-FWER控制

国家自然科学基金

0+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

复杂产品并行设计多源变更传播机理和路径优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

高维数据下多样本均值检验问题的研究

国家自然科学基金

0+阅读 · 2015年12月31日

考虑模型背景场与多源观测值自相关结构差异的根层土壤水分同化研究

国家自然科学基金

0+阅读 · 2015年12月31日

多源基因表达数据横向整合的统计方法比较

国家自然科学基金

0+阅读 · 2015年12月31日

大数据环境下融合多源信息的推荐系统关键问题研究

国家自然科学基金

6+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员