Influence Factors on RAG Poisoning - 专知论文

会员服务 ·

0

攻击 · 数据库 · 知识 · 对抗 · 鲁棒 ·

Influence Factors on RAG Poisoning

翻译：RAG投毒的影响因素研究

Pedro Pereira,Eva Maia,Isabel Praça,Adrien Bécue

from arxiv, 10 pages, 3 figures, 2 Tables, conference KES-2026 30th International Conference on Knowledge-Based and Intelligent Information & Engineering Systems

Retrieval-Augmented Generation (RAG) systems enhance large language models by grounding responses in retrieved documents from external knowledge sources at inference time. However, this reliance on retrieved content introduces vulnerabilities to poisoning attacks, in which adversarial documents can manipulate both the retrieval process and the generated outputs. This paper investigates poisoning robustness in RAG through a full factorial experimental study covering 432 configurations. We analyze the impacts of dataset, retriever type, retrieval depth, database composition, chunking strategy, and generator model on retrieval-level and generation-level metrics. The results show that retriever architecture, dataset, and retrieval depth are the strongest factors affecting poisoning exposure, while generator choice and database composition have a major impact on downstream attack success. Dense and graph-based retrievers generally improve robustness relative to BM25, whereas larger retrieval depth increases the likelihood of retrieving poisoned passages. We further show that replicating poisoned content across multiple databases amplifies adversarial influence, while additional clean sources can mitigate it. These findings highlight that poisoning vulnerability in RAG is not attributable to a single component, but instead arises from the interaction of retrieval, generation, and knowledge-base configuration.

翻译：检索增强生成（RAG）系统通过推理时从外部知识源中检索文档来支撑响应，从而增强大型语言模型的能力。然而，这种对检索内容的依赖引入了针对投毒攻击的脆弱性，在这种攻击中，对抗性文档能够操纵检索过程和生成输出。本文通过一项涵盖432种配置的全因子实验研究，探讨了RAG中的投毒鲁棒性问题。我们分析了数据集、检索器类型、检索深度、数据库组成、分块策略和生成器模型对检索层面和生成层面指标的影响。结果表明，检索器架构、数据集和检索深度是影响投毒暴露程度的最强因素，而生成器选择和数据库组成对下游攻击成功率有重大影响。相较于BM25，基于密集向量和图结构的检索器通常能提升鲁棒性，但更大的检索深度会增加检索到投毒片段的概率。我们进一步证明，在多个数据库中复制投毒内容会放大对抗性影响，而增加清洁数据源则可缓解这种影响。这些发现凸显出，RAG中的投毒脆弱性并非归因于单一组件，而是源于检索、生成和知识库配置之间的相互作用。

0

相关内容

【AAAI2026】TruthfulRAG：基于知识图谱解决检索增强生成中的事实层冲突

【AAAI2026】TruthfulRAG：基于知识图谱解决检索增强生成中的事实层冲突

专知会员服务

24+阅读 · 2025年11月15日

检索增强生成（RAG）技术，261页slides

检索增强生成（RAG）技术，261页slides

专知会员服务

42+阅读 · 2025年10月16日

【新书】Essential GraphRAG: 知识图谱增强的RAG

【新书】Essential GraphRAG: 知识图谱增强的RAG

专知会员服务

35+阅读 · 2025年7月17日

检索增强生成(RAG)与推理的协同作用：一项系统综述

检索增强生成(RAG)与推理的协同作用：一项系统综述

专知会员服务

34+阅读 · 2025年4月27日

智能体检索增强生成：关于智能体RAG的综述

智能体检索增强生成：关于智能体RAG的综述

专知会员服务

94+阅读 · 2025年1月21日

图增强生成（GraphRAG）

图增强生成（GraphRAG）

专知会员服务

35+阅读 · 2025年1月4日

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

专知会员服务

49+阅读 · 2024年12月17日

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

专知会员服务

56+阅读 · 2024年8月22日

RAG 与 LLMs 的结合 - 迈向检索增强的大型语言模型综述

RAG 与 LLMs 的结合 - 迈向检索增强的大型语言模型综述

专知会员服务

101+阅读 · 2024年5月13日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

最新《生成式对抗网络GAN进展》论文

最新《生成式对抗网络GAN进展》论文

专知

95+阅读 · 2019年4月5日

必读！TOP10生成对抗网络GAN论文（附链接）

必读！TOP10生成对抗网络GAN论文（附链接）

数据派THU

17+阅读 · 2019年3月24日

必读！生成对抗网络GAN论文TOP 10

必读！生成对抗网络GAN论文TOP 10

GAN生成式对抗网络

58+阅读 · 2019年3月20日

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

专知

16+阅读 · 2018年5月14日

【论文推荐】最新六篇生成式对抗网络（GAN）相关论文—半监督学习、对偶、交互生成对抗网络、激活、纳什均衡、tempoGAN

【论文推荐】最新六篇生成式对抗网络（GAN）相关论文—半监督学习、对偶、交互生成对抗网络、激活、纳什均衡、tempoGAN

专知

23+阅读 · 2018年2月23日

【论文推荐】最新6篇生成式对抗网络（GAN）相关论文—半监督对抗学习、行人再识别、代表性特征、高分辨率深度卷积、自监督、超分辨

【论文推荐】最新6篇生成式对抗网络（GAN）相关论文—半监督对抗学习、行人再识别、代表性特征、高分辨率深度卷积、自监督、超分辨

专知

10+阅读 · 2018年2月1日

最新5篇生成对抗网络相关论文推荐—FusedGAN、DeblurGAN、AdvGAN、CipherGAN、MMD GANS

最新5篇生成对抗网络相关论文推荐—FusedGAN、DeblurGAN、AdvGAN、CipherGAN、MMD GANS

专知

23+阅读 · 2018年1月18日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

专知

29+阅读 · 2017年12月12日

Rabif基因在肥胖发生中的作用及其机制研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于LIBS-Raman光谱融合探测的危险物检测识别方法研究

国家自然科学基金

1+阅读 · 2017年12月31日

RACK7选择性结合活跃增强子的分子机制及生物学意义的研究

国家自然科学基金

0+阅读 · 2016年12月31日

一个新的干扰素刺激基因TRIM69抑制登革病毒感染的作用与机制的研究

国家自然科学基金

0+阅读 · 2015年12月31日

TSHR易感位点导致Graves病人群TRAb持续阳性的机制探讨

国家自然科学基金

0+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

基于高通量测序技术的宏基因组学与宏转录组学在环境样品抗生素抗性基因全谱表征和宿主溯源中的应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

转录因子NbNAC1调控植物系统性抗性防御病毒入侵的作用研究

国家自然科学基金

0+阅读 · 2015年12月31日

肉类食品禁用/限用添加剂的表面增强拉曼光谱特性及基底作用机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

交联质谱法寻找新型毒素的作用靶点

国家自然科学基金

1+阅读 · 2015年12月31日

MIRAGE: Misleading Retrieval-Augmented Generation via Black-box and Query-agnostic Poisoning Attacks

Arxiv

0+阅读 · 6月14日

Evaluating Factual Density in Multi-Source RAG: A Study in Medical AI Accuracy

Arxiv

0+阅读 · 6月10日

When Poison Fails After Retrieval: Revisiting Corpus Poisoning under Chunking and Reranking Pipelines

Arxiv

0+阅读 · 6月9日

RAG over Thinking Traces Can Improve Reasoning Tasks

Arxiv

0+阅读 · 6月8日

Agent-Orchestrated Adaptive RAG: A Comparative Study on Structured and Multi-Hop Retrieval

Arxiv

0+阅读 · 6月4日

Uncovering Competing Poisoning Attacks in Retrieval-Augmented Generation

Arxiv

0+阅读 · 6月2日

Evaluating Factual Density in Multi-Source RAG: A Study in Medical AI Accuracy

Arxiv

0+阅读 · 5月29日

On the impact of retrieved content representations in RAG Pipelines

Arxiv

0+阅读 · 5月29日

Knowledge Poisoning Attacks on Medical Multi-Modal Retrieval-Augmented Generation

Arxiv

0+阅读 · 5月11日

LARAG: Link-Aware Retrieval Strategy for RAG Systems in Hyperlinked Technical Documentation

Arxiv

0+阅读 · 5月8日

VIP会员

文章信息

相关主题

最新内容

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

专知会员服务

0+阅读 · 今天7:13

俄乌无人机战争的六大启示

俄乌无人机战争的六大启示

专知会员服务

1+阅读 · 今天7:07

《无人机空中监控：通信实验洞察》

《无人机空中监控：通信实验洞察》

专知会员服务

1+阅读 · 今天7:05

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

专知会员服务

1+阅读 · 今天6:59

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

11+阅读 · 8月2日

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

5+阅读 · 8月2日

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

9+阅读 · 8月2日

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

10+阅读 · 8月2日

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

5+阅读 · 8月2日

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

9+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

7+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

7+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

7+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

5+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

13+阅读 · 7月31日

相关VIP内容

【AAAI2026】TruthfulRAG：基于知识图谱解决检索增强生成中的事实层冲突

【AAAI2026】TruthfulRAG：基于知识图谱解决检索增强生成中的事实层冲突

专知会员服务

24+阅读 · 2025年11月15日

检索增强生成（RAG）技术，261页slides

检索增强生成（RAG）技术，261页slides

专知会员服务

42+阅读 · 2025年10月16日

【新书】Essential GraphRAG: 知识图谱增强的RAG

【新书】Essential GraphRAG: 知识图谱增强的RAG

专知会员服务

35+阅读 · 2025年7月17日

检索增强生成(RAG)与推理的协同作用：一项系统综述

检索增强生成(RAG)与推理的协同作用：一项系统综述

专知会员服务

34+阅读 · 2025年4月27日

智能体检索增强生成：关于智能体RAG的综述

智能体检索增强生成：关于智能体RAG的综述

专知会员服务

94+阅读 · 2025年1月21日

图增强生成（GraphRAG）

图增强生成（GraphRAG）

专知会员服务

35+阅读 · 2025年1月4日

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

专知会员服务

49+阅读 · 2024年12月17日

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

专知会员服务

56+阅读 · 2024年8月22日

RAG 与 LLMs 的结合 - 迈向检索增强的大型语言模型综述

RAG 与 LLMs 的结合 - 迈向检索增强的大型语言模型综述

专知会员服务

101+阅读 · 2024年5月13日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

热门VIP内容

开通专知VIP会员享更多权益服务

俄乌无人机战争的六大启示

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《无人机空中监控：通信实验洞察》

相关资讯

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

最新《生成式对抗网络GAN进展》论文

最新《生成式对抗网络GAN进展》论文

专知

95+阅读 · 2019年4月5日

必读！TOP10生成对抗网络GAN论文（附链接）

必读！TOP10生成对抗网络GAN论文（附链接）

数据派THU

17+阅读 · 2019年3月24日

必读！生成对抗网络GAN论文TOP 10

必读！生成对抗网络GAN论文TOP 10

GAN生成式对抗网络

58+阅读 · 2019年3月20日

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

专知

16+阅读 · 2018年5月14日

【论文推荐】最新六篇生成式对抗网络（GAN）相关论文—半监督学习、对偶、交互生成对抗网络、激活、纳什均衡、tempoGAN

【论文推荐】最新六篇生成式对抗网络（GAN）相关论文—半监督学习、对偶、交互生成对抗网络、激活、纳什均衡、tempoGAN

专知

23+阅读 · 2018年2月23日

【论文推荐】最新6篇生成式对抗网络（GAN）相关论文—半监督对抗学习、行人再识别、代表性特征、高分辨率深度卷积、自监督、超分辨

【论文推荐】最新6篇生成式对抗网络（GAN）相关论文—半监督对抗学习、行人再识别、代表性特征、高分辨率深度卷积、自监督、超分辨

专知

10+阅读 · 2018年2月1日

最新5篇生成对抗网络相关论文推荐—FusedGAN、DeblurGAN、AdvGAN、CipherGAN、MMD GANS

最新5篇生成对抗网络相关论文推荐—FusedGAN、DeblurGAN、AdvGAN、CipherGAN、MMD GANS

专知

23+阅读 · 2018年1月18日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

专知

29+阅读 · 2017年12月12日

相关论文

MIRAGE: Misleading Retrieval-Augmented Generation via Black-box and Query-agnostic Poisoning Attacks

Arxiv

0+阅读 · 6月14日

Evaluating Factual Density in Multi-Source RAG: A Study in Medical AI Accuracy

Arxiv

0+阅读 · 6月10日

When Poison Fails After Retrieval: Revisiting Corpus Poisoning under Chunking and Reranking Pipelines

Arxiv

0+阅读 · 6月9日

RAG over Thinking Traces Can Improve Reasoning Tasks

Arxiv

0+阅读 · 6月8日

Agent-Orchestrated Adaptive RAG: A Comparative Study on Structured and Multi-Hop Retrieval

Arxiv

0+阅读 · 6月4日

Uncovering Competing Poisoning Attacks in Retrieval-Augmented Generation

Arxiv

0+阅读 · 6月2日

Evaluating Factual Density in Multi-Source RAG: A Study in Medical AI Accuracy

Arxiv

0+阅读 · 5月29日

On the impact of retrieved content representations in RAG Pipelines

Arxiv

0+阅读 · 5月29日

Knowledge Poisoning Attacks on Medical Multi-Modal Retrieval-Augmented Generation

Arxiv

0+阅读 · 5月11日

LARAG: Link-Aware Retrieval Strategy for RAG Systems in Hyperlinked Technical Documentation

Arxiv

0+阅读 · 5月8日

相关基金

Rabif基因在肥胖发生中的作用及其机制研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于LIBS-Raman光谱融合探测的危险物检测识别方法研究

国家自然科学基金

1+阅读 · 2017年12月31日

RACK7选择性结合活跃增强子的分子机制及生物学意义的研究

国家自然科学基金

0+阅读 · 2016年12月31日

一个新的干扰素刺激基因TRIM69抑制登革病毒感染的作用与机制的研究

国家自然科学基金

0+阅读 · 2015年12月31日

TSHR易感位点导致Graves病人群TRAb持续阳性的机制探讨

国家自然科学基金

0+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

基于高通量测序技术的宏基因组学与宏转录组学在环境样品抗生素抗性基因全谱表征和宿主溯源中的应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

转录因子NbNAC1调控植物系统性抗性防御病毒入侵的作用研究

国家自然科学基金

0+阅读 · 2015年12月31日

肉类食品禁用/限用添加剂的表面增强拉曼光谱特性及基底作用机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

交联质谱法寻找新型毒素的作用靶点

国家自然科学基金

1+阅读 · 2015年12月31日

微信扫码咨询专知VIP会员