知识何时不应回答：面向安全RAG的轻量级知识库对齐离域检测 (Knowing When Not to Answer: Lightweight KB-Aligned OOD Detection for Safe RAG) - 专知论文

会员服务 ·

0

知识 · 知识库 · 系统 · 对齐 · 子空间 ·

Knowing When Not to Answer: Lightweight KB-Aligned OOD Detection for Safe RAG

翻译：知识何时不应回答：面向安全RAG的轻量级知识库对齐离域检测

Ilias Triantafyllopoulos,Renyi Qu,Salvatore Giorgi,Brenda Curtis,Lyle H. Ungar,João Sedoc

Retrieval-Augmented Generation (RAG) systems are increasingly deployed in high-stakes domains, where safety depends not only on how a system answers, but also on whether a query should be answered given a knowledge base (KB). Out-of-domain (OOD) queries can cause dense retrieval to surface weakly related context and lead the generator to produce fluent but unjustified responses. We study lightweight, KB-aligned OOD detection as an always-on gate for RAG systems. Our approach applies PCA to KB embeddings and scores queries in a compact subspace selected either by explained-variance retention (EVR) or by a separability-driven t-test ranking. We evaluate geometric semantic-search rules and lightweight classifiers across 16 domains, including high-stakes COVID-19 and Substance Use KBs, and stress-test robustness using both LLM-generated attacks and an in-the-wild 4chan attack. We find that low-dimensional detectors achieve competitive OOD performance while being faster, cheaper, and more interpretable than prompted LLM-based judges. Finally, human and LLM-based evaluations show that OOD queries primarily degrade the relevance of RAG outputs, showing the need for efficient external OOD detection to maintain safe, in-scope behavior.

翻译：检索增强生成（RAG）系统正日益部署于高风险领域，其安全性不仅取决于系统如何回答问题，还取决于在给定知识库（KB）的情况下是否应该回答某个查询。离域（OOD）查询可能导致密集检索返回弱相关的上下文，并致使生成器产生流畅但缺乏依据的响应。我们研究将轻量级、知识库对齐的OOD检测作为RAG系统的常开“门控”机制。我们的方法对知识库嵌入应用主成分分析（PCA），并在一个紧凑的子空间中对查询进行评分，该子空间通过解释方差保留（EVR）或基于可分离性的t检验排序来选择。我们在16个领域（包括高风险的新冠肺炎和药物使用知识库）评估了几何语义搜索规则和轻量级分类器，并使用LLM生成的攻击和真实世界的4chan攻击进行压力测试以评估鲁棒性。我们发现，低维检测器在实现有竞争力的OOD检测性能的同时，比基于提示的LLM评判器更快、更经济且更具可解释性。最后，基于人类和LLM的评估表明，OOD查询主要降低了RAG输出的相关性，这凸显了需要高效的外部OOD检测来维持安全、在域内的行为。

0

相关内容

【AAAI2026】TruthfulRAG：基于知识图谱解决检索增强生成中的事实层冲突

【AAAI2026】TruthfulRAG：基于知识图谱解决检索增强生成中的事实层冲突

专知会员服务

20+阅读 · 2025年11月15日

检索增强生成（RAG）技术，261页slides

检索增强生成（RAG）技术，261页slides

专知会员服务

41+阅读 · 2025年10月16日

【新书】Essential GraphRAG: 知识图谱增强的RAG

【新书】Essential GraphRAG: 知识图谱增强的RAG

专知会员服务

32+阅读 · 2025年7月17日

【新书】检索增强生成（RAG）入门指南

【新书】检索增强生成（RAG）入门指南

专知会员服务

29+阅读 · 2025年6月25日

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

专知会员服务

48+阅读 · 2024年12月17日

【书籍】检索增强生成（RAG）在大规模语言模型（LLM）应用中的应用

【书籍】检索增强生成（RAG）在大规模语言模型（LLM）应用中的应用

专知会员服务

70+阅读 · 2024年10月7日

【KDD2024教程】RAG遇上LLMs：迈向检索增强的大语言模型

【KDD2024教程】RAG遇上LLMs：迈向检索增强的大语言模型

专知会员服务

67+阅读 · 2024年9月7日

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

专知会员服务

54+阅读 · 2024年8月22日

RAG 与 LLMs 的结合 - 迈向检索增强的大型语言模型综述

RAG 与 LLMs 的结合 - 迈向检索增强的大型语言模型综述

专知会员服务

100+阅读 · 2024年5月13日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

110+阅读 · 2023年12月19日

知识图谱|最近三年知识图谱在动态以及时间预测与补全上必读的6篇论文（收藏一下）

知识图谱|最近三年知识图谱在动态以及时间预测与补全上必读的6篇论文（收藏一下）

AINLP

75+阅读 · 2020年1月14日

Query 理解和语义召回在知乎搜索中的应用

Query 理解和语义召回在知乎搜索中的应用

DataFunTalk

25+阅读 · 2020年1月2日

如何搭建一个基于知识图谱的问答系统（以医疗行业为例）

如何搭建一个基于知识图谱的问答系统（以医疗行业为例）

PaperWeekly

51+阅读 · 2019年11月17日

论文浅尝 | 基于复杂查询图编码的知识库问答

论文浅尝 | 基于复杂查询图编码的知识库问答

开放知识图谱

17+阅读 · 2019年7月22日

ACL 2019 开源论文 | 基于知识库和大规模网络文本的问答系统

ACL 2019 开源论文 | 基于知识库和大规模网络文本的问答系统

PaperWeekly

26+阅读 · 2019年7月20日

论文浅尝 | 用增强学习进行推理：问答与知识库完善（KBC）

论文浅尝 | 用增强学习进行推理：问答与知识库完善（KBC）

开放知识图谱

21+阅读 · 2018年5月24日

【读书笔记】基于知识库的问答：生成查询图进行语义分析

【读书笔记】基于知识库的问答：生成查询图进行语义分析

专知

16+阅读 · 2018年3月25日

揭开知识库问答KB-QA的面纱3·信息抽取篇

揭开知识库问答KB-QA的面纱3·信息抽取篇

PaperWeekly

15+阅读 · 2017年8月14日

论文动态 | 基于知识图谱的问答系统关键技术研究 #02

论文动态 | 基于知识图谱的问答系统关键技术研究 #02

开放知识图谱

10+阅读 · 2017年8月6日

论文动态 | 基于知识图谱的问答系统关键技术研究 #04

论文动态 | 基于知识图谱的问答系统关键技术研究 #04

开放知识图谱

10+阅读 · 2017年7月9日

基于LIBS-Raman光谱融合探测的危险物检测识别方法研究

国家自然科学基金

1+阅读 · 2017年12月31日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

面向知识库的实体链接技术研究

国家自然科学基金

13+阅读 · 2015年12月31日

几类密码方案的格分析优化技术

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度神经网络的雷达目标高分辨距离像稳健识别方法

国家自然科学基金

6+阅读 · 2015年12月31日

不确定知识图谱中面向结构查询的众包清洗研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于被控物理对象监测的核电厂网络空间攻击的检测和响应

国家自然科学基金

2+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

ReliabilityRAG: Effective and Provably Robust Defense for RAG-based Web-Search

Arxiv

0+阅读 · 2月15日

Benchmarking Knowledge-Extraction Attack and Defense on Retrieval-Augmented Generation

Arxiv

0+阅读 · 2月10日

Addressing Corpus Knowledge Poisoning Attacks on RAG Using Sparse Attention

Arxiv

0+阅读 · 2月5日

HugRAG: Hierarchical Causal Knowledge Graph Design for RAG

Arxiv

0+阅读 · 2月4日

Addressing Corpus Knowledge Poisoning Attacks on RAG Using Sparse Attention

Arxiv

0+阅读 · 2月4日

LUMINA: Detecting Hallucinations in RAG System with Context-Knowledge Signals

Arxiv

0+阅读 · 2月3日

RAG-E: Quantifying Retriever-Generator Alignment and Failure Modes

Arxiv

0+阅读 · 1月29日

RPO-RAG: Aligning Small LLMs with Relation-aware Preference Optimization for Knowledge Graph Question Answering

Arxiv

0+阅读 · 1月28日

CtrlRAG: Black-box Document Poisoning Attacks for Retrieval-Augmented Generation of Large Language Models

Arxiv

0+阅读 · 1月26日

MIRAGE: Misleading Retrieval-Augmented Generation via Black-box and Query-agnostic Poisoning Attacks

Arxiv

0+阅读 · 1月19日

VIP会员

文章信息

相关主题

相关VIP内容

【AAAI2026】TruthfulRAG：基于知识图谱解决检索增强生成中的事实层冲突

【AAAI2026】TruthfulRAG：基于知识图谱解决检索增强生成中的事实层冲突

专知会员服务

20+阅读 · 2025年11月15日

检索增强生成（RAG）技术，261页slides

检索增强生成（RAG）技术，261页slides

专知会员服务

41+阅读 · 2025年10月16日

【新书】Essential GraphRAG: 知识图谱增强的RAG

【新书】Essential GraphRAG: 知识图谱增强的RAG

专知会员服务

32+阅读 · 2025年7月17日

【新书】检索增强生成（RAG）入门指南

【新书】检索增强生成（RAG）入门指南

专知会员服务

29+阅读 · 2025年6月25日

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

专知会员服务

48+阅读 · 2024年12月17日

【书籍】检索增强生成（RAG）在大规模语言模型（LLM）应用中的应用

【书籍】检索增强生成（RAG）在大规模语言模型（LLM）应用中的应用

专知会员服务

70+阅读 · 2024年10月7日

【KDD2024教程】RAG遇上LLMs：迈向检索增强的大语言模型

【KDD2024教程】RAG遇上LLMs：迈向检索增强的大语言模型

专知会员服务

67+阅读 · 2024年9月7日

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

专知会员服务

54+阅读 · 2024年8月22日

RAG 与 LLMs 的结合 - 迈向检索增强的大型语言模型综述

RAG 与 LLMs 的结合 - 迈向检索增强的大型语言模型综述

专知会员服务

100+阅读 · 2024年5月13日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

110+阅读 · 2023年12月19日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】基于自适应表征的高效视觉建模

《多域作战中融合网络、电子战与动能机动》

AI智能体时代大模型安全风险与攻防新挑战

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

相关资讯

知识图谱|最近三年知识图谱在动态以及时间预测与补全上必读的6篇论文（收藏一下）

知识图谱|最近三年知识图谱在动态以及时间预测与补全上必读的6篇论文（收藏一下）

AINLP

75+阅读 · 2020年1月14日

Query 理解和语义召回在知乎搜索中的应用

Query 理解和语义召回在知乎搜索中的应用

DataFunTalk

25+阅读 · 2020年1月2日

如何搭建一个基于知识图谱的问答系统（以医疗行业为例）

如何搭建一个基于知识图谱的问答系统（以医疗行业为例）

PaperWeekly

51+阅读 · 2019年11月17日

论文浅尝 | 基于复杂查询图编码的知识库问答

论文浅尝 | 基于复杂查询图编码的知识库问答

开放知识图谱

17+阅读 · 2019年7月22日

ACL 2019 开源论文 | 基于知识库和大规模网络文本的问答系统

ACL 2019 开源论文 | 基于知识库和大规模网络文本的问答系统

PaperWeekly

26+阅读 · 2019年7月20日

论文浅尝 | 用增强学习进行推理：问答与知识库完善（KBC）

论文浅尝 | 用增强学习进行推理：问答与知识库完善（KBC）

开放知识图谱

21+阅读 · 2018年5月24日

【读书笔记】基于知识库的问答：生成查询图进行语义分析

【读书笔记】基于知识库的问答：生成查询图进行语义分析

专知

16+阅读 · 2018年3月25日

揭开知识库问答KB-QA的面纱3·信息抽取篇

揭开知识库问答KB-QA的面纱3·信息抽取篇

PaperWeekly

15+阅读 · 2017年8月14日

论文动态 | 基于知识图谱的问答系统关键技术研究 #02

论文动态 | 基于知识图谱的问答系统关键技术研究 #02

开放知识图谱

10+阅读 · 2017年8月6日

论文动态 | 基于知识图谱的问答系统关键技术研究 #04

论文动态 | 基于知识图谱的问答系统关键技术研究 #04

开放知识图谱

10+阅读 · 2017年7月9日

相关论文

ReliabilityRAG: Effective and Provably Robust Defense for RAG-based Web-Search

Arxiv

0+阅读 · 2月15日

Benchmarking Knowledge-Extraction Attack and Defense on Retrieval-Augmented Generation

Arxiv

0+阅读 · 2月10日

Addressing Corpus Knowledge Poisoning Attacks on RAG Using Sparse Attention

Arxiv

0+阅读 · 2月5日

HugRAG: Hierarchical Causal Knowledge Graph Design for RAG

Arxiv

0+阅读 · 2月4日

Addressing Corpus Knowledge Poisoning Attacks on RAG Using Sparse Attention

Arxiv

0+阅读 · 2月4日

LUMINA: Detecting Hallucinations in RAG System with Context-Knowledge Signals

Arxiv

0+阅读 · 2月3日

RAG-E: Quantifying Retriever-Generator Alignment and Failure Modes

Arxiv

0+阅读 · 1月29日

RPO-RAG: Aligning Small LLMs with Relation-aware Preference Optimization for Knowledge Graph Question Answering

Arxiv

0+阅读 · 1月28日

CtrlRAG: Black-box Document Poisoning Attacks for Retrieval-Augmented Generation of Large Language Models

Arxiv

0+阅读 · 1月26日

MIRAGE: Misleading Retrieval-Augmented Generation via Black-box and Query-agnostic Poisoning Attacks

Arxiv

0+阅读 · 1月19日

相关基金

基于LIBS-Raman光谱融合探测的危险物检测识别方法研究

国家自然科学基金

1+阅读 · 2017年12月31日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

面向知识库的实体链接技术研究

国家自然科学基金

13+阅读 · 2015年12月31日

几类密码方案的格分析优化技术

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度神经网络的雷达目标高分辨距离像稳健识别方法

国家自然科学基金

6+阅读 · 2015年12月31日

不确定知识图谱中面向结构查询的众包清洗研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于被控物理对象监测的核电厂网络空间攻击的检测和响应

国家自然科学基金

2+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员