Prompt injection attacks pose serious security risks across a wide range of real-world applications. While receiving increasing attention, the community faces a critical gap: the lack of a unified platform for prompt injection evaluation. This makes it challenging to reliably compare defenses, understand their true robustness under diverse attacks, or assess how well they generalize across tasks and benchmarks. For instance, many defenses initially reported as effective were later found to exhibit limited robustness on diverse datasets and attacks. To bridge this gap, we introduce PIArena, a unified and extensible platform for prompt injection evaluation that enables users to easily integrate state-of-the-art attacks and defenses and evaluate them across a variety of existing and new benchmarks. We also design a dynamic strategy-based attack that adaptively optimizes injected prompts based on defense feedback. Through comprehensive evaluation using PIArena, we uncover critical limitations of state-of-the-art defenses: limited generalizability across tasks, vulnerability to adaptive attacks, and fundamental challenges when an injected task aligns with the target task. The code and datasets are available at https://github.com/sleeepeer/PIArena.


翻译:暂无翻译

0
下载
关闭预览

相关内容

《大模型安全实践(2024)》白皮书,42页pdf
专知会员服务
94+阅读 · 2024年7月10日
可信互连技术白皮书,45页pdf
专知会员服务
23+阅读 · 2023年1月17日
《人工智能安全框架(2020年)》白皮书,68页pdf
专知会员服务
167+阅读 · 2021年1月9日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
NLP新宠 | 浅谈Prompt的前世今生
机器学习与推荐算法
14+阅读 · 2021年8月16日
AAAI 2020论文解读:关注实体以更好地理解文本
AI科技评论
17+阅读 · 2019年11月20日
【泡泡点云时空】Potree:基于Web浏览器的大规模点云渲染
强化学习三篇论文 避免遗忘等
CreateAMind
20+阅读 · 2019年5月24日
【泡泡图灵智库】密集相关的自监督视觉描述学习(RAL)
泡泡机器人SLAM
11+阅读 · 2018年10月6日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月15日
VIP会员
最新内容
具身AI安全综述:风险、攻击与防御
专知会员服务
2+阅读 · 今天12:02
DeepSeek 版Claude Code,免费小白安装教程来了!
专知会员服务
13+阅读 · 5月5日
《美空军条令出版物 2-0:情报(2026版)》
专知会员服务
16+阅读 · 5月5日
帕兰提尔 Gotham:一个游戏规则改变器
专知会员服务
9+阅读 · 5月5日
相关VIP内容
《大模型安全实践(2024)》白皮书,42页pdf
专知会员服务
94+阅读 · 2024年7月10日
可信互连技术白皮书,45页pdf
专知会员服务
23+阅读 · 2023年1月17日
《人工智能安全框架(2020年)》白皮书,68页pdf
专知会员服务
167+阅读 · 2021年1月9日
相关资讯
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
NLP新宠 | 浅谈Prompt的前世今生
机器学习与推荐算法
14+阅读 · 2021年8月16日
AAAI 2020论文解读:关注实体以更好地理解文本
AI科技评论
17+阅读 · 2019年11月20日
【泡泡点云时空】Potree:基于Web浏览器的大规模点云渲染
强化学习三篇论文 避免遗忘等
CreateAMind
20+阅读 · 2019年5月24日
【泡泡图灵智库】密集相关的自监督视觉描述学习(RAL)
泡泡机器人SLAM
11+阅读 · 2018年10月6日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员