Prompt injection attacks pose serious security risks across a wide range of real-world applications. While receiving increasing attention, the community faces a critical gap: the lack of a unified platform for prompt injection evaluation. This makes it challenging to reliably compare defenses, understand their true robustness under diverse attacks, or assess how well they generalize across tasks and benchmarks. For instance, many defenses initially reported as effective were later found to exhibit limited robustness on diverse datasets and attacks. To bridge this gap, we introduce PIArena, a unified and extensible platform for prompt injection evaluation that enables users to easily integrate state-of-the-art attacks and defenses and evaluate them across a variety of existing and new benchmarks. We also design a dynamic strategy-based attack that adaptively optimizes injected prompts based on defense feedback. Through comprehensive evaluation using PIArena, we uncover critical limitations of state-of-the-art defenses: limited generalizability across tasks, vulnerability to adaptive attacks, and fundamental challenges when an injected task aligns with the target task. The code and datasets are available at https://github.com/sleeepeer/PIArena.


翻译:提示注入攻击对多种实际应用构成了严重的安全风险。尽管这一问题日益受到关注,但该领域仍面临一个关键缺口:缺乏统一的提示注入评估平台。这使得我们难以可靠地比较防御方法、了解它们在多样化攻击下的真实鲁棒性,或评估其在不同任务和基准上的泛化能力。例如,许多最初报告有效的防御方法后来被发现对多样化数据集和攻击的鲁棒性有限。为弥合这一缺口,我们提出了PIArena,一个统一且可扩展的提示注入评估平台,使用户能够便捷地集成最先进的攻击与防御方法,并在多种现有及新基准上对其进行评估。我们还设计了一种基于动态策略的攻击方法,能够根据防御反馈自适应优化注入提示。通过使用PIArena进行综合评估,我们揭示了当前最优防御方法的若干关键局限:跨任务的泛化能力有限、对自适应攻击的脆弱性,以及当注入任务与目标任务一致时面临的根本性挑战。代码与数据集可见于https://github.com/sleeepeer/PIArena。

0
下载
关闭预览

相关内容

TransMLA:多头潜在注意力(MLA)即为所需
专知会员服务
23+阅读 · 2025年2月13日
事件抽取的再评价:过去、现在和未来的挑战
专知会员服务
25+阅读 · 2023年11月28日
专知会员服务
30+阅读 · 2021年2月21日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
深度 | 推荐系统评估
AI100
24+阅读 · 2019年3月16日
推荐系统
炼数成金订阅号
28+阅读 · 2019年1月17日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2012年12月31日
Arxiv
0+阅读 · 4月15日
Arxiv
0+阅读 · 3月20日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
5+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
2+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员