Retrieval augmented generation systems have become an integral part of everyday life. Whether in internet search engines, email systems, or service chatbots, these systems are based on context retrieval and answer generation with large language models. With their spread, also the security vulnerabilities increase. Attackers become increasingly focused on these systems and various hacking approaches are developed. Manipulating the context documents is a way to persist attacks and make them affect all users. Therefore, detecting compromised, adversarial context documents early is crucial for security. While supervised approaches require a large amount of labeled adversarial contexts, we propose an unsupervised approach, being able to detect also zero day attacks. We conduct a preliminary study to show appropriate indicators for adversarial contexts. For that purpose generator activations, output embeddings, and an entropy-based uncertainty measure turn out as suitable, complementary quantities. With an elementary statistical outlier detection, we propose and compare their detection abilities. Furthermore, we show that the target prompt, which the attacker wants to manipulate, is not required for a successful detection. Moreover, our results indicate that a simple context summary generation might even be superior in finding manipulated contexts.


翻译:检索增强生成系统已成为日常生活中不可或缺的组成部分。无论是在互联网搜索引擎、电子邮件系统还是服务聊天机器人中,这些系统都基于上下文检索和大型语言模型的答案生成。随着其普及,安全漏洞也随之增加。攻击者日益聚焦于这些系统,并开发出各种入侵方法。操纵上下文文档是一种使攻击持续存在并影响所有用户的方式。因此,及早检测受损的对抗性上下文文档对安全至关重要。虽然监督方法需要大量标注的对抗性上下文,但我们提出了一种无监督方法,能够检测零日攻击。我们进行了一项初步研究,以展示对抗性上下文的合适指标。为此,生成器激活、输出嵌入以及基于熵的不确定性度量被证明是合适且互补的量。通过基本的统计离群值检测,我们提出并比较了它们的检测能力。此外,我们表明,攻击者想要操纵的目标提示并非成功检测所必需。而且,我们的结果表明,简单的上下文摘要生成在发现被操纵的上下文方面甚至可能更优。

0
下载
关闭预览

相关内容

大语言模型中的检索与结构化增强生成综述
专知会员服务
33+阅读 · 2025年9月17日
检索增强生成(RAG)与推理的协同作用:一项系统综述
专知会员服务
16+阅读 · 2025年4月27日
迈向可信的检索增强生成:大语言模型综述
专知会员服务
30+阅读 · 2025年2月12日
定制化大型语言模型的图检索增强生成综述
专知会员服务
38+阅读 · 2025年1月28日
检索增强生成系统中的可信度:综述
专知会员服务
44+阅读 · 2024年9月18日
《大型语言模型中基于检索的文本生成》综述
专知会员服务
60+阅读 · 2024年4月18日
《检索增强生成在AIGC中的应用》综述
专知会员服务
93+阅读 · 2024年3月2日
专知会员服务
34+阅读 · 2021年9月16日
最新《生成式对抗网络GAN进展》论文
专知
95+阅读 · 2019年4月5日
知识在检索式对话系统的应用
微信AI
32+阅读 · 2018年9月20日
【干货】强化学习在生成对抗网络文本生成中扮演的角色(下)
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
1+阅读 · 39分钟前
软件定义多域战术网络:基础与未来方向(综述)
远程空中优势:新一代超视距导弹的兴起
专知会员服务
1+阅读 · 今天14:45
大语言模型溯因推理的统一分类学与综述
专知会员服务
0+阅读 · 今天12:07
美/以-伊战争:停火与后续情景与影响分析
专知会员服务
3+阅读 · 4月11日
相关VIP内容
大语言模型中的检索与结构化增强生成综述
专知会员服务
33+阅读 · 2025年9月17日
检索增强生成(RAG)与推理的协同作用:一项系统综述
专知会员服务
16+阅读 · 2025年4月27日
迈向可信的检索增强生成:大语言模型综述
专知会员服务
30+阅读 · 2025年2月12日
定制化大型语言模型的图检索增强生成综述
专知会员服务
38+阅读 · 2025年1月28日
检索增强生成系统中的可信度:综述
专知会员服务
44+阅读 · 2024年9月18日
《大型语言模型中基于检索的文本生成》综述
专知会员服务
60+阅读 · 2024年4月18日
《检索增强生成在AIGC中的应用》综述
专知会员服务
93+阅读 · 2024年3月2日
专知会员服务
34+阅读 · 2021年9月16日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员