Retrieval-Augmented Generation (RAG) systems based on Large Language Models (LLMs) have become essential for tasks such as question answering and content generation. However, their increasing impact on public opinion and information dissemination has made them a critical focus for security research due to inherent vulnerabilities. Previous studies have predominantly addressed attacks targeting factual or single-query manipulations. In this paper, we address a more practical scenario: topic-oriented adversarial opinion manipulation attacks on RAG models, where LLMs are required to reason and synthesize multiple perspectives, rendering them particularly susceptible to systematic knowledge poisoning. Specifically, we propose Topic-FlipRAG, a two-stage manipulation attack pipeline that strategically crafts adversarial perturbations to influence opinions across related queries. This approach combines traditional adversarial ranking attack techniques and leverages the extensive internal relevant knowledge and reasoning capabilities of LLMs to execute semantic-level perturbations. Experiments show that the proposed attacks effectively shift the opinion of the model's outputs on specific topics, significantly impacting user information perception. Current mitigation methods cannot effectively defend against such attacks, highlighting the necessity for enhanced safeguards for RAG systems, and offering crucial insights for LLM security research.


翻译:基于大型语言模型(LLM)的检索增强生成(RAG)系统已成为问答和内容生成等任务的关键技术。然而,由于其固有的脆弱性,它们对公众舆论和信息传播日益增长的影响使其成为安全研究的重要焦点。以往的研究主要关注针对事实或单次查询操控的攻击。本文探讨了一种更实际的场景:针对RAG模型的、面向主题的对抗性观点操控攻击,其中LLM需要进行多视角推理与综合,使其特别容易受到系统性知识投毒的影响。具体而言,我们提出了Topic-FlipRAG,一种两阶段的操控攻击流程,通过策略性地构建对抗性扰动来影响相关查询的观点。该方法结合了传统的对抗性排序攻击技术,并利用LLM内部丰富的相关知识与推理能力来执行语义层面的扰动。实验表明,所提出的攻击能有效改变模型在特定主题上输出的观点,显著影响用户的信息感知。现有的防御方法无法有效抵御此类攻击,这凸显了增强RAG系统安全防护的必要性,并为LLM安全研究提供了重要启示。

0
下载
关闭预览

相关内容

【KDD2024】揭示隐私漏洞:调查图数据中结构的作用
专知会员服务
11+阅读 · 2024年8月13日
【ICML2023】SEGA:结构熵引导的图对比学习锚视图
专知会员服务
23+阅读 · 2023年5月10日
【AAAI2023】MHCCL:多变量时间序列的掩蔽层次聚类对比学习
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
CVPR 2019:精确目标检测的不确定边界框回归
AI科技评论
13+阅读 · 2019年9月16日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【KDD2024】揭示隐私漏洞:调查图数据中结构的作用
专知会员服务
11+阅读 · 2024年8月13日
【ICML2023】SEGA:结构熵引导的图对比学习锚视图
专知会员服务
23+阅读 · 2023年5月10日
【AAAI2023】MHCCL:多变量时间序列的掩蔽层次聚类对比学习
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员