Prompt-injection detectors are heterogeneous: each is strong on a different slice of attacks, and none is always reliable. Yet existing systems still treat detection as a fixed single-detector pipeline, committing every request to one detector's blind spots. We reframe defense as detector allocation: given a heterogeneous pool, decide per request which detectors to run and whether to escalate to an LLM judge. Our framework SCOUT (Scalable and Controllable Outcome-prediction for Uncertainty-aware Triage) makes this decision dynamic by predicting each detector's per-sample reliability and latency from how it behaved on similar past inputs, and exposes a single safety-utility threshold to the operator (where utility bundles benign-pass rate and wall-clock). To evaluate this setting, we build SCOUT-450, a benchmark that captures the structurally complex, agent-facing injections that older prompt-injection sets under-represent. On SCOUT-450, a safety-oriented operating point reduces attack-success rate by 46% and total wall-clock by 40% relative to an always-on GPT-4o judge, at a 5.1-point benign-utility drop. SCOUT also transfers to three external benchmarks (BIPIA, IPI, and IHEval), improving the safety-utility frontier.


翻译:摘要:提示注入检测器具有异质性:每种检测器在不同攻击切片上表现强劲,但无一始终可靠。然而,现有系统仍将检测视为固定单检测器流水线,使每个请求暴露于单一检测器的盲区。我们重新将防御框架定义为检测器分配:给定一个异质检测器池,针对每个请求决定运行哪些检测器、以及是否升级至大语言模型裁判。我们的框架SCOUT(可扩展且可控的结果预测不确定性分诊)通过预测每个检测器在类似历史输入中的样本级可靠性与延迟,将此决策动态化,并向操作员暴露单一安全-效用阈值(其中效用包含良性通过率与挂钟时间)。为评估该场景,我们构建了SCOUT-450基准测试,该基准涵盖了过时提示注入测试集未能充分表征的结构复杂、面向智能体的注入方式。在SCOUT-450上,相较于始终启用GPT-4o裁判的方案,安全导向操作点将攻击成功率降低46%、总挂钟时间降低40%,同时良性效用仅下降5.1个百分点。SCOUT还可迁移至三个外部基准测试(BIPIA、IPI、IHEval),提升了安全-效用前沿。

0
下载
关闭预览

相关内容

《利用视觉问题解答进行异常检测》美陆军实验室报告
专知会员服务
24+阅读 · 2024年5月21日
基于博弈论的入侵检测与响应优化综述
专知会员服务
41+阅读 · 2023年7月23日
《基于高斯混合流和入包的异常检测》2023最新57页论文
专知会员服务
29+阅读 · 2023年5月15日
对抗机器学习在网络入侵检测领域的应用
专知会员服务
35+阅读 · 2022年1月4日
专知会员服务
34+阅读 · 2021年9月16日
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
论文笔记之Feature Selective Networks for Object Detection
统计学习与视觉计算组
21+阅读 · 2018年7月26日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
侦测欺诈交易(异常点检测)
GBASE数据工程部数据团队
20+阅读 · 2017年5月10日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员