Faithfulness-QA: A Counterfactual Entity Substitution Dataset for Training Context-Faithful RAG Models - 专知论文

会员服务 ·

0

Faithfulness-QA: A Counterfactual Entity Substitution Dataset for Training Context-Faithful RAG Models

翻译：忠实度问答：用于训练上下文忠实RAG模型的反事实实体替换数据集

Li Ju,Junzhe Wang,Qi Zhang

Retrieval-Augmented Generation (RAG) models frequently produce answers grounded in parametric memory rather than the retrieved context, undermining the core promise of retrieval augmentation. A fundamental obstacle to fixing this unfaithfulness is the lack of training data that explicitly requires models to prefer context over internal knowledge. We introduce Faithfulness-QA, a large-scale dataset of 99,094 samples constructed through counterfactual entity substitution. Starting from two established extractive QA benchmarks--SQuAD and TriviaQA--we automatically identify answer-bearing named entities in each context, replace them with type-consistent alternatives drawn from a curated bank of 76,953 entities, and thereby manufacture controlled knowledge conflicts between context and parametric memory. Rigorous quality filtering ensures 100% pass rates across four automated checks on random 200-sample audits. We release the full dataset, the construction pipeline, and a typed entity bank covering eight named entity categories. Faithfulness-QA is designed as a training resource for attention-based faithfulness objectives and as an evaluation benchmark for measuring context-grounding behavior in RAG systems. Data and code are available at https://github.com/qzhangFDU/faithfulness-qa-dataset.

翻译：检索增强生成（RAG）模型经常产生基于参数化记忆而非检索上下文的答案，这削弱了检索增强的核心价值。解决这种不忠实的主要障碍在于缺乏明确要求模型优先考虑上下文而非内部知识的训练数据。我们提出忠实度问答（Faithfulness-QA），这是一个包含99,094个样本的大规模数据集，通过反事实实体替换构建而成。从两个成熟的抽取式问答基准（SQuAD和TriviaQA）出发，我们自动识别每个上下文中包含答案的命名实体，将其替换为来自包含76,953个实体的精选库中类型一致的替代实体，从而在上下文和参数化记忆之间制造可控的知识冲突。严格的质量过滤确保在随机抽取的200个样本审计中，四项自动检查均达到100%通过率。我们发布完整数据集、构建流程以及涵盖八类命名实体的类型化实体库。忠实度问答旨在作为基于注意力的忠实性目标的训练资源，以及衡量RAG系统中上下文接地行为的评估基准。数据和代码可在https://github.com/qzhangFDU/faithfulness-qa-dataset获取。

0

相关内容

【博士论文】用于搜索的 Transformer 模型：检索、鲁棒性与拒绝机制

【博士论文】用于搜索的 Transformer 模型：检索、鲁棒性与拒绝机制

专知会员服务

10+阅读 · 2月8日

【AAAI2026】TruthfulRAG：基于知识图谱解决检索增强生成中的事实层冲突

【AAAI2026】TruthfulRAG：基于知识图谱解决检索增强生成中的事实层冲突

专知会员服务

24+阅读 · 2025年11月15日

迈向可信的检索增强生成：大语言模型综述

迈向可信的检索增强生成：大语言模型综述

专知会员服务

30+阅读 · 2025年2月12日

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

专知会员服务

49+阅读 · 2024年12月17日

检索增强生成系统中的可信度：综述

检索增强生成系统中的可信度：综述

专知会员服务

44+阅读 · 2024年9月18日

【KDD2024教程】RAG遇上LLMs：迈向检索增强的大语言模型

【KDD2024教程】RAG遇上LLMs：迈向检索增强的大语言模型

专知会员服务

68+阅读 · 2024年9月7日

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

专知会员服务

56+阅读 · 2024年8月22日

RAG 与 LLMs 的结合 - 迈向检索增强的大型语言模型综述

RAG 与 LLMs 的结合 - 迈向检索增强的大型语言模型综述

专知会员服务

101+阅读 · 2024年5月13日

《大型语言模型中基于检索的文本生成》综述

《大型语言模型中基于检索的文本生成》综述

专知会员服务

60+阅读 · 2024年4月18日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

【CVPR2021】基于反事实推断的视觉问答框架

【CVPR2021】基于反事实推断的视觉问答框架

专知

38+阅读 · 2021年3月4日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

Query 理解和语义召回在知乎搜索中的应用

Query 理解和语义召回在知乎搜索中的应用

DataFunTalk

25+阅读 · 2020年1月2日

论文浅尝 | 利用 KG Embedding 进行问题回答

论文浅尝 | 利用 KG Embedding 进行问题回答

开放知识图谱

22+阅读 · 2019年7月7日

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

机器之心

17+阅读 · 2019年6月28日

百度提出ERNIE，多项中文NLP任务表现出色（已开源）

百度提出ERNIE，多项中文NLP任务表现出色（已开源）

AI100

33+阅读 · 2019年3月16日

论文浅尝 | 面向单关系事实问题的中文问答模型

论文浅尝 | 面向单关系事实问题的中文问答模型

开放知识图谱

28+阅读 · 2019年2月11日

【SIGIR2018】 IRGAN Tutorial：上交张伟楠老师-GAN在信息检索的应用【附下载】

【SIGIR2018】 IRGAN Tutorial：上交张伟楠老师-GAN在信息检索的应用【附下载】

专知

12+阅读 · 2018年7月7日

【干货】基于注意力机制的神经匹配模型用于短文本检索

【干货】基于注意力机制的神经匹配模型用于短文本检索

专知

11+阅读 · 2018年1月11日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

高维半参数模型假设检验问题的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

考虑不确定性的结构动力学响应模型可信度确认方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

心理与教育测量中项目反应时间数据的统计建模及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于部分核实数据的统计推断及应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向实体信息集成的非合作半结构化深网数据源选择

国家自然科学基金

0+阅读 · 2014年12月31日

Q-RAG: Long Context Multi-step Retrieval via Value-based Embedder Training

Arxiv

0+阅读 · 5月4日

Faithfulness-Aware Uncertainty Quantification for Fact-Checking the Output of Retrieval Augmented Generation

Arxiv

0+阅读 · 4月29日

Is Agentic RAG worth it? An experimental comparison of RAG approaches

Arxiv

0+阅读 · 4月20日

Rag Performance Prediction for Question Answering

Arxiv

0+阅读 · 4月15日

CUE-R: Beyond the Final Answer in Retrieval-Augmented Generation

Arxiv

0+阅读 · 4月7日

From BM25 to Corrective RAG: Benchmarking Retrieval Strategies for Text-and-Table Documents

Arxiv

0+阅读 · 4月2日

PluriHopRAG: Exhaustive, Recall-Sensitive QA Through Corpus-Specific Document Structure Learning

Arxiv

0+阅读 · 4月1日

Careful Queries, Credible Results: Teaching RAG Models Advanced Web Search Tools with Reinforcement Learning

Arxiv

0+阅读 · 3月22日

Tiny-Critic RAG: Empowering Agentic Fallback with Parameter-Efficient Small Language Models

Arxiv

0+阅读 · 3月1日

Resisting Contextual Interference in RAG via Parametric-Knowledge Reinforcement

Arxiv

0+阅读 · 2月25日

VIP会员

文章信息

相关主题

最新内容

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

7+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

5+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

6+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

4+阅读 · 7月18日

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

8+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

7+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

4+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

2+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

5+阅读 · 7月17日

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

3+阅读 · 7月17日

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

4+阅读 · 7月17日

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

专知会员服务

12+阅读 · 7月16日

《无人地面战车（UGV）的崛起》报告

《无人地面战车（UGV）的崛起》报告

专知会员服务

7+阅读 · 7月16日

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

专知会员服务

6+阅读 · 7月16日

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

专知会员服务

14+阅读 · 7月16日

相关VIP内容

【博士论文】用于搜索的 Transformer 模型：检索、鲁棒性与拒绝机制

【博士论文】用于搜索的 Transformer 模型：检索、鲁棒性与拒绝机制

专知会员服务

10+阅读 · 2月8日

【AAAI2026】TruthfulRAG：基于知识图谱解决检索增强生成中的事实层冲突

【AAAI2026】TruthfulRAG：基于知识图谱解决检索增强生成中的事实层冲突

专知会员服务

24+阅读 · 2025年11月15日

迈向可信的检索增强生成：大语言模型综述

迈向可信的检索增强生成：大语言模型综述

专知会员服务

30+阅读 · 2025年2月12日

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

专知会员服务

49+阅读 · 2024年12月17日

检索增强生成系统中的可信度：综述

检索增强生成系统中的可信度：综述

专知会员服务

44+阅读 · 2024年9月18日

【KDD2024教程】RAG遇上LLMs：迈向检索增强的大语言模型

【KDD2024教程】RAG遇上LLMs：迈向检索增强的大语言模型

专知会员服务

68+阅读 · 2024年9月7日

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

专知会员服务

56+阅读 · 2024年8月22日

RAG 与 LLMs 的结合 - 迈向检索增强的大型语言模型综述

RAG 与 LLMs 的结合 - 迈向检索增强的大型语言模型综述

专知会员服务

101+阅读 · 2024年5月13日

《大型语言模型中基于检索的文本生成》综述

《大型语言模型中基于检索的文本生成》综述

专知会员服务

60+阅读 · 2024年4月18日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

热门VIP内容

开通专知VIP会员享更多权益服务

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

相关资讯

【CVPR2021】基于反事实推断的视觉问答框架

【CVPR2021】基于反事实推断的视觉问答框架

专知

38+阅读 · 2021年3月4日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

Query 理解和语义召回在知乎搜索中的应用

Query 理解和语义召回在知乎搜索中的应用

DataFunTalk

25+阅读 · 2020年1月2日

论文浅尝 | 利用 KG Embedding 进行问题回答

论文浅尝 | 利用 KG Embedding 进行问题回答

开放知识图谱

22+阅读 · 2019年7月7日

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

机器之心

17+阅读 · 2019年6月28日

百度提出ERNIE，多项中文NLP任务表现出色（已开源）

百度提出ERNIE，多项中文NLP任务表现出色（已开源）

AI100

33+阅读 · 2019年3月16日

论文浅尝 | 面向单关系事实问题的中文问答模型

论文浅尝 | 面向单关系事实问题的中文问答模型

开放知识图谱

28+阅读 · 2019年2月11日

【SIGIR2018】 IRGAN Tutorial：上交张伟楠老师-GAN在信息检索的应用【附下载】

【SIGIR2018】 IRGAN Tutorial：上交张伟楠老师-GAN在信息检索的应用【附下载】

专知

12+阅读 · 2018年7月7日

【干货】基于注意力机制的神经匹配模型用于短文本检索

【干货】基于注意力机制的神经匹配模型用于短文本检索

专知

11+阅读 · 2018年1月11日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

相关论文

Q-RAG: Long Context Multi-step Retrieval via Value-based Embedder Training

Arxiv

0+阅读 · 5月4日

Faithfulness-Aware Uncertainty Quantification for Fact-Checking the Output of Retrieval Augmented Generation

Arxiv

0+阅读 · 4月29日

Is Agentic RAG worth it? An experimental comparison of RAG approaches

Arxiv

0+阅读 · 4月20日

Rag Performance Prediction for Question Answering

Arxiv

0+阅读 · 4月15日

CUE-R: Beyond the Final Answer in Retrieval-Augmented Generation

Arxiv

0+阅读 · 4月7日

From BM25 to Corrective RAG: Benchmarking Retrieval Strategies for Text-and-Table Documents

Arxiv

0+阅读 · 4月2日

PluriHopRAG: Exhaustive, Recall-Sensitive QA Through Corpus-Specific Document Structure Learning

Arxiv

0+阅读 · 4月1日

Careful Queries, Credible Results: Teaching RAG Models Advanced Web Search Tools with Reinforcement Learning

Arxiv

0+阅读 · 3月22日

Tiny-Critic RAG: Empowering Agentic Fallback with Parameter-Efficient Small Language Models

Arxiv

0+阅读 · 3月1日

Resisting Contextual Interference in RAG via Parametric-Knowledge Reinforcement

Arxiv

0+阅读 · 2月25日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

高维半参数模型假设检验问题的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

考虑不确定性的结构动力学响应模型可信度确认方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

心理与教育测量中项目反应时间数据的统计建模及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于部分核实数据的统计推断及应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向实体信息集成的非合作半结构化深网数据源选择

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员