Retrieval-Augmented Generation (RAG) has become a cornerstone of knowledge-intensive applications, including enterprise chatbots, healthcare assistants, and agentic memory management. However, recent studies show that knowledge-extraction attacks can recover sensitive knowledge-base content through maliciously crafted queries, raising serious intellectual property and privacy concerns. While prior work has explored individual attack and defense techniques, the research landscape remains fragmented, spanning heterogeneous retrieval embeddings, diverse generation models, and evaluations based on non-standardized metrics and inconsistent datasets. To address this gap, we introduce the first systematic benchmark for knowledge-extraction attacks on RAG systems. Our benchmark covers broad attack/defense strategies, representative retrieval embedding models, open/closed-source generators, (non) graph-based indexing, all evaluated under a unified experimental framework with standardized protocols across multiple datasets spanning diverse languages. By consolidating the experimental landscape and enabling reproducible, comparable evaluation, this benchmark provides actionable insights and a practical foundation for developing privacy-preserving RAG systems in the face of emerging knowledge extraction threats.


翻译:检索增强生成(RAG)已成为知识密集型应用的基石,包括企业级聊天机器人、医疗辅助系统及智能体记忆管理。然而近期研究表明,知识提取攻击可通过恶意构造的查询恢复敏感知识库内容,引发严重的知识产权与隐私问题。尽管已有研究探索了个体攻击与防御技术,但该领域研究仍呈碎片化态势——涉及异构检索嵌入、多样化生成模型,以及基于非标准化指标和不一致数据集的评估。为弥补这一空白,我们首次提出针对RAG系统知识提取攻击的系统性基准测试。该基准涵盖广泛攻击/防御策略、代表性检索嵌入模型、开源/闭源生成器及基于(非)图的索引方案,所有方案均在统一实验框架下评估,采用跨多语言数据集的标准化协议。通过整合实验生态并实现可复制、可对比的评估,本基准为应对新兴知识提取威胁下的隐私保护型RAG系统开发提供了可操作见解与实践基础。

0
下载
关闭预览

相关内容

检索增强生成(RAG)技术,261页slides
专知会员服务
42+阅读 · 2025年10月16日
【新书】Essential GraphRAG: 知识图谱增强的RAG
专知会员服务
35+阅读 · 2025年7月17日
【SIGIR2025教程】动态与参数化检索增强生成
专知会员服务
17+阅读 · 2025年7月14日
视觉中的检索增强生成与理解:综述与新展望
专知会员服务
24+阅读 · 2025年4月6日
迈向可信的检索增强生成:大语言模型综述
专知会员服务
30+阅读 · 2025年2月12日
图检索增强生成研究进展
专知会员服务
38+阅读 · 2024年11月5日
检索增强生成系统中的可信度:综述
专知会员服务
44+阅读 · 2024年9月18日
《检索增强生成在AIGC中的应用》综述
专知会员服务
93+阅读 · 2024年3月2日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
检索增强生成(RAG)技术,261页slides
专知会员服务
42+阅读 · 2025年10月16日
【新书】Essential GraphRAG: 知识图谱增强的RAG
专知会员服务
35+阅读 · 2025年7月17日
【SIGIR2025教程】动态与参数化检索增强生成
专知会员服务
17+阅读 · 2025年7月14日
视觉中的检索增强生成与理解:综述与新展望
专知会员服务
24+阅读 · 2025年4月6日
迈向可信的检索增强生成:大语言模型综述
专知会员服务
30+阅读 · 2025年2月12日
图检索增强生成研究进展
专知会员服务
38+阅读 · 2024年11月5日
检索增强生成系统中的可信度:综述
专知会员服务
44+阅读 · 2024年9月18日
《检索增强生成在AIGC中的应用》综述
专知会员服务
93+阅读 · 2024年3月2日
相关资讯
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员