Addressing Corpus Knowledge Poisoning Attacks on RAG Using Sparse Attention - 专知论文

会员服务 ·

0

攻击 · 注意力机制 · 稀疏 · 语料 · 知识 ·

Addressing Corpus Knowledge Poisoning Attacks on RAG Using Sparse Attention

翻译：利用稀疏注意力机制应对RAG的语料知识投毒攻击

Sagie Dekel,Moshe Tennenholtz,Oren Kurland

Retrieval Augmented Generation (RAG) is a highly effective paradigm for keeping LLM-based responses up-to-date and reducing the likelihood of hallucinations. Yet, RAG was recently shown to be quite vulnerable to corpus knowledge poisoning: an attacker injects misleading documents to the corpus to steer an LLM's output to an undesired response. We argue that the standard causal attention mechanism in LLMs enables harmful cross-document interactions, specifically in cases of attacks. Accordingly, we introduce a novel defense approach for RAG: Sparse Document Attention RAG (SDAG). This is a block-sparse attention mechanism that disallows cross-attention between retrieved documents. SDAG requires a minimal inference-time change to the attention mask; furthermore, no fine-tuning or additional architectural changes are needed. We present an empirical evaluation of LLM-based question answering (QA) with a variety of attack strategies on RAG. We show that our SDAG method substantially outperforms the standard causal attention mechanism in terms of attack success rate. We further demonstrate the clear merits of integrating SDAG with state-of-the-art RAG defense methods. Specifically, the integration results in performance that is statistically significantly better than the state-of-the-art.

翻译：检索增强生成（RAG）是一种极为有效的范式，能够保持基于大语言模型（LLM）的响应时效性并降低产生幻觉的可能性。然而，近期研究表明RAG极易受到语料知识投毒攻击：攻击者通过向语料库中注入误导性文档，从而将LLM的输出导向非预期结果。我们认为，LLM中标准的因果注意力机制在遭受攻击时会引发有害的跨文档交互。为此，我们提出一种针对RAG的新型防御方法：稀疏文档注意力RAG（SDAG）。这是一种块稀疏注意力机制，可禁止检索文档间的交叉注意力计算。SDAG仅需在推理时对注意力掩码进行最小化修改，且无需微调或额外的架构调整。我们通过基于LLM的问答（QA）任务，结合多种针对RAG的攻击策略进行了实证评估。实验表明，我们的SDAG方法在攻击成功率指标上显著优于标准因果注意力机制。我们进一步论证了将SDAG与前沿RAG防御方法相结合的优势：集成后的系统性能在统计学意义上显著优于现有最优方法。

0

相关内容

【AAAI2026】TruthfulRAG：基于知识图谱解决检索增强生成中的事实层冲突

【AAAI2026】TruthfulRAG：基于知识图谱解决检索增强生成中的事实层冲突

专知会员服务

22+阅读 · 2025年11月15日

《缓解大语言模型（LLMs）幻觉：面向应用的检索增强生成（RAG）、推理与智能体系统综述》

《缓解大语言模型（LLMs）幻觉：面向应用的检索增强生成（RAG）、推理与智能体系统综述》

专知会员服务

24+阅读 · 2025年10月29日

检索增强生成（RAG）技术，261页slides

检索增强生成（RAG）技术，261页slides

专知会员服务

42+阅读 · 2025年10月16日

【新书】Essential GraphRAG: 知识图谱增强的RAG

【新书】Essential GraphRAG: 知识图谱增强的RAG

专知会员服务

35+阅读 · 2025年7月17日

【新书】检索增强生成（RAG）入门指南

【新书】检索增强生成（RAG）入门指南

专知会员服务

30+阅读 · 2025年6月25日

检索增强生成(RAG)与推理的协同作用：一项系统综述

检索增强生成(RAG)与推理的协同作用：一项系统综述

专知会员服务

16+阅读 · 2025年4月27日

智能体检索增强生成：关于智能体RAG的综述

智能体检索增强生成：关于智能体RAG的综述

专知会员服务

94+阅读 · 2025年1月21日

【书籍】检索增强生成（RAG）在大规模语言模型（LLM）应用中的应用

【书籍】检索增强生成（RAG）在大规模语言模型（LLM）应用中的应用

专知会员服务

71+阅读 · 2024年10月7日

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

专知会员服务

56+阅读 · 2024年8月22日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

赛尔笔记 | Attention！注意力机制可解释吗？

赛尔笔记 | Attention！注意力机制可解释吗？

哈工大SCIR

23+阅读 · 2019年9月27日

百度提出ERNIE，多项中文NLP任务表现出色（已开源）

百度提出ERNIE，多项中文NLP任务表现出色（已开源）

AI100

33+阅读 · 2019年3月16日

博客 | 总结+paper分享|对话系统中的自然语言生成技术（NLG）

博客 | 总结+paper分享|对话系统中的自然语言生成技术（NLG）

AI研习社

16+阅读 · 2018年12月4日

NLG ≠ 机器写作 | 专家专栏

NLG ≠ 机器写作 | 专家专栏

量子位

13+阅读 · 2018年9月10日

【论文笔记】自注意力机制学习句子embedding

【论文笔记】自注意力机制学习句子embedding

专知

15+阅读 · 2018年5月17日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

专知

29+阅读 · 2017年12月12日

深度学习中的注意力机制

深度学习中的注意力机制

CSDN大数据

24+阅读 · 2017年11月2日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

RACK7选择性结合活跃增强子的分子机制及生物学意义的研究

国家自然科学基金

0+阅读 · 2016年12月31日

TSHR易感位点导致Graves病人群TRAb持续阳性的机制探讨

国家自然科学基金

0+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

利用植物病毒表达载体来筛选玉米黏虫有效干扰RNA的研究

国家自然科学基金

0+阅读 · 2014年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

When Safety Becomes a Vulnerability: Exploiting LLM Alignment Homogeneity for Transferable Blocking in RAG

Arxiv

0+阅读 · 3月4日

Tiny-Critic RAG: Empowering Agentic Fallback with Parameter-Efficient Small Language Models

Arxiv

0+阅读 · 3月1日

Resisting Contextual Interference in RAG via Parametric-Knowledge Reinforcement

Arxiv

0+阅读 · 2月25日

Interact-RAG: Reason and Interact with the Corpus, Beyond Black-Box Retrieval

Arxiv

0+阅读 · 2月25日

ReliabilityRAG: Effective and Provably Robust Defense for RAG-based Web-Search

Arxiv

0+阅读 · 2月15日

AttentionRetriever: Attention Layers are Secretly Long Document Retrievers

Arxiv

0+阅读 · 2月12日

RAGBoost: Efficient Retrieval-Augmented Generation with Accuracy-Preserving Context Reuse

Arxiv

0+阅读 · 2月10日

Confundo: Learning to Generate Robust Poison for Practical RAG Systems

Arxiv

0+阅读 · 2月6日

Addressing Corpus Knowledge Poisoning Attacks on RAG Using Sparse Attention

Arxiv

0+阅读 · 2月4日

LUMINA: Detecting Hallucinations in RAG System with Context-Knowledge Signals

Arxiv

0+阅读 · 2月3日

VIP会员

文章信息

相关主题

注意力机制

最新内容

ICML 2026 | 演化选择的因果建模

ICML 2026 | 演化选择的因果建模

专知会员服务

0+阅读 · 今天15:45

综述｜学习式3D表征最新进展与趋势

综述｜学习式3D表征最新进展与趋势

专知会员服务

1+阅读 · 今天15:37

《武器作战效能分析：基于虚拟构造仿真大数据与深度学习的初步见解》

《武器作战效能分析：基于虚拟构造仿真大数据与深度学习的初步见解》

专知会员服务

4+阅读 · 今天14:53

《自主巡飞弹药系统量子逻辑框架：一种基于不确定模糊集的方法》

《自主巡飞弹药系统量子逻辑框架：一种基于不确定模糊集的方法》

专知会员服务

3+阅读 · 今天14:47

人工智能重塑威慑：算法优势的兴起

人工智能重塑威慑：算法优势的兴起

专知会员服务

3+阅读 · 今天14:27

【博士论文】基于物理结构与贝叶斯不确定性的可靠神经网络

【博士论文】基于物理结构与贝叶斯不确定性的可靠神经网络

专知会员服务

10+阅读 · 6月4日

AgentOps综述：智能体系统运维框架

AgentOps综述：智能体系统运维框架

专知会员服务

14+阅读 · 6月4日

《美陆军最新条令：兵力防护》

《美陆军最新条令：兵力防护》

专知会员服务

9+阅读 · 6月4日

《军用物联网：架构、应用、挑战与现代战争中的战略意义》

《军用物联网：架构、应用、挑战与现代战争中的战略意义》

专知会员服务

8+阅读 · 6月4日

《人工智能的挑战：算法战的想象与现实》

《人工智能的挑战：算法战的想象与现实》

专知会员服务

11+阅读 · 6月4日

《自适应智能：融合数字孪生精准性与人工智能预见力，实现实时决策》

《自适应智能：融合数字孪生精准性与人工智能预见力，实现实时决策》

专知会员服务

13+阅读 · 6月4日

首场人工智能战争：Maven如何重塑武装冲突

首场人工智能战争：Maven如何重塑武装冲突

专知会员服务

7+阅读 · 6月4日

【博士论文】抽象信息论与安全奖励学习的数学发展

【博士论文】抽象信息论与安全奖励学习的数学发展

专知会员服务

9+阅读 · 6月3日

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

专知会员服务

6+阅读 · 6月3日

《推进军事决策支持：运用强化学习驱动仿真的稳健作战计划验证》

《推进军事决策支持：运用强化学习驱动仿真的稳健作战计划验证》

专知会员服务

13+阅读 · 6月3日

相关VIP内容

【AAAI2026】TruthfulRAG：基于知识图谱解决检索增强生成中的事实层冲突

【AAAI2026】TruthfulRAG：基于知识图谱解决检索增强生成中的事实层冲突

专知会员服务

22+阅读 · 2025年11月15日

《缓解大语言模型（LLMs）幻觉：面向应用的检索增强生成（RAG）、推理与智能体系统综述》

《缓解大语言模型（LLMs）幻觉：面向应用的检索增强生成（RAG）、推理与智能体系统综述》

专知会员服务

24+阅读 · 2025年10月29日

检索增强生成（RAG）技术，261页slides

检索增强生成（RAG）技术，261页slides

专知会员服务

42+阅读 · 2025年10月16日

【新书】Essential GraphRAG: 知识图谱增强的RAG

【新书】Essential GraphRAG: 知识图谱增强的RAG

专知会员服务

35+阅读 · 2025年7月17日

【新书】检索增强生成（RAG）入门指南

【新书】检索增强生成（RAG）入门指南

专知会员服务

30+阅读 · 2025年6月25日

检索增强生成(RAG)与推理的协同作用：一项系统综述

检索增强生成(RAG)与推理的协同作用：一项系统综述

专知会员服务

16+阅读 · 2025年4月27日

智能体检索增强生成：关于智能体RAG的综述

智能体检索增强生成：关于智能体RAG的综述

专知会员服务

94+阅读 · 2025年1月21日

【书籍】检索增强生成（RAG）在大规模语言模型（LLM）应用中的应用

【书籍】检索增强生成（RAG）在大规模语言模型（LLM）应用中的应用

专知会员服务

71+阅读 · 2024年10月7日

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

专知会员服务

56+阅读 · 2024年8月22日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

热门VIP内容

开通专知VIP会员享更多权益服务

综述｜学习式3D表征最新进展与趋势

《自主巡飞弹药系统量子逻辑框架：一种基于不确定模糊集的方法》

ICML 2026 | 演化选择的因果建模

《武器作战效能分析：基于虚拟构造仿真大数据与深度学习的初步见解》

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

赛尔笔记 | Attention！注意力机制可解释吗？

赛尔笔记 | Attention！注意力机制可解释吗？

哈工大SCIR

23+阅读 · 2019年9月27日

百度提出ERNIE，多项中文NLP任务表现出色（已开源）

百度提出ERNIE，多项中文NLP任务表现出色（已开源）

AI100

33+阅读 · 2019年3月16日

博客 | 总结+paper分享|对话系统中的自然语言生成技术（NLG）

博客 | 总结+paper分享|对话系统中的自然语言生成技术（NLG）

AI研习社

16+阅读 · 2018年12月4日

NLG ≠ 机器写作 | 专家专栏

NLG ≠ 机器写作 | 专家专栏

量子位

13+阅读 · 2018年9月10日

【论文笔记】自注意力机制学习句子embedding

【论文笔记】自注意力机制学习句子embedding

专知

15+阅读 · 2018年5月17日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

专知

29+阅读 · 2017年12月12日

深度学习中的注意力机制

深度学习中的注意力机制

CSDN大数据

24+阅读 · 2017年11月2日

相关论文

When Safety Becomes a Vulnerability: Exploiting LLM Alignment Homogeneity for Transferable Blocking in RAG

Arxiv

0+阅读 · 3月4日

Tiny-Critic RAG: Empowering Agentic Fallback with Parameter-Efficient Small Language Models

Arxiv

0+阅读 · 3月1日

Resisting Contextual Interference in RAG via Parametric-Knowledge Reinforcement

Arxiv

0+阅读 · 2月25日

Interact-RAG: Reason and Interact with the Corpus, Beyond Black-Box Retrieval

Arxiv

0+阅读 · 2月25日

ReliabilityRAG: Effective and Provably Robust Defense for RAG-based Web-Search

Arxiv

0+阅读 · 2月15日

AttentionRetriever: Attention Layers are Secretly Long Document Retrievers

Arxiv

0+阅读 · 2月12日

RAGBoost: Efficient Retrieval-Augmented Generation with Accuracy-Preserving Context Reuse

Arxiv

0+阅读 · 2月10日

Confundo: Learning to Generate Robust Poison for Practical RAG Systems

Arxiv

0+阅读 · 2月6日

Addressing Corpus Knowledge Poisoning Attacks on RAG Using Sparse Attention

Arxiv

0+阅读 · 2月4日

LUMINA: Detecting Hallucinations in RAG System with Context-Knowledge Signals

Arxiv

0+阅读 · 2月3日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

RACK7选择性结合活跃增强子的分子机制及生物学意义的研究

国家自然科学基金

0+阅读 · 2016年12月31日

TSHR易感位点导致Graves病人群TRAb持续阳性的机制探讨

国家自然科学基金

0+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

利用植物病毒表达载体来筛选玉米黏虫有效干扰RNA的研究

国家自然科学基金

0+阅读 · 2014年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员