StepShield: When, Not Whether to Intervene on Rogue Agents - 专知论文

会员服务 ·

0

基准 · 早期干预 · 检测器 · 智能体 · 准确率 ·

StepShield: When, Not Whether to Intervene on Rogue Agents

翻译：StepShield：何时而非是否干预异常智能体

Gloria Felicia,Michael Eniolade,Jinfeng He,Zitha Sasindran,Hemant Kumar,Milan Hussain Angati,Sandeep Bandarupalli

from arxiv, 16 pages, 2 figures, 14 tables

Existing agent safety benchmarks report binary accuracy, conflating early intervention with post-mortem analysis. A detector that flags a violation at step 8 enables intervention; one that reports it at step 48 provides only forensic value. This distinction is critical, yet current benchmarks cannot measure it. We introduce StepShield, the first benchmark to evaluate when violations are detected, not just whether. StepShield contains 9,213 code agent trajectories, including 1,278 meticulously annotated training pairs and a 7,935-trajectory test set with a realistic 8.1% rogue rate. Rogue behaviors are grounded in real-world security incidents across six categories. We propose three novel temporal metrics: Early Intervention Rate (EIR), Intervention Gap, and Tokens Saved. Surprisingly, our evaluation reveals that an LLM-based judge achieves 59% EIR while a static analyzer achieves only 26%, a 2.3x performance gap that is entirely invisible to standard accuracy metrics. We further show that early detection has direct economic benefits: our cascaded HybridGuard detector reduces monitoring costs by 75% and projects to $108M in cumulative savings over five years at enterprise scale. By shifting the focus of evaluation from whether to when, StepShield provides a new foundation for building safer and more economically viable AI agents. The code and data are released under an Apache 2.0 license.

翻译：现有智能体安全基准报告二元准确率，将早期干预与事后分析混为一谈。在第8步标记违规的检测器可实现干预；而在第48步报告违规的检测器仅具备取证价值。这一区分至关重要，但现有基准无法对其进行衡量。我们提出StepShield——首个评估违规何时被检测而非仅是否被检测的基准。StepShield包含9,213条代码智能体轨迹，涵盖1,278条精细标注的训练样本对，以及一个包含7,935条轨迹、具有真实8.1%异常率的数据集。异常行为基于现实安全事件，涵盖六大类别。我们提出三项新颖的时序指标：早期干预率、干预间隔与节省标记数。令人惊讶的是，评估结果显示基于LLM的评判器达到59%的早期干预率，而静态分析器仅达到26%，这2.3倍的性能差距在标准准确率指标中完全无法显现。我们进一步证明早期检测具有直接经济效益：级联式HybridGuard检测器将监测成本降低75%，预计在企业级规模下五年累计可节省1.08亿美元。通过将评估重点从“是否”转向“何时”，StepShield为构建更安全且更具经济可行性的AI智能体提供了新基础。代码与数据均以Apache 2.0许可证发布。

0

相关内容

智能体评判者（Agent-as-a-Judge）研究综述

智能体评判者（Agent-as-a-Judge）研究综述

专知会员服务

37+阅读 · 1月9日

智能体 AI (Agentic AI) 的新进展：回归初心，预见未来

智能体 AI (Agentic AI) 的新进展：回归初心，预见未来

专知会员服务

30+阅读 · 1月2日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

37+阅读 · 2025年12月31日

《利用视觉问题解答进行异常检测》美陆军实验室报告

《利用视觉问题解答进行异常检测》美陆军实验室报告

专知会员服务

24+阅读 · 2024年5月21日

《建立智能体-仿真物技术关系 (ASTR)》美国陆军55页报告

《建立智能体-仿真物技术关系 (ASTR)》美国陆军55页报告

专知会员服务

40+阅读 · 2023年3月28日

最新50页结构健康监测综述论文，《机器学习和结构健康监测（SHM）技术综述：新兴技术和高维数据源》，土耳其中东理工大学、剑桥大学等机构

最新50页结构健康监测综述论文，《机器学习和结构健康监测（SHM）技术综述：新兴技术和高维数据源》，土耳其中东理工大学、剑桥大学等机构

专知会员服务

35+阅读 · 2022年4月11日

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

专知会员服务

43+阅读 · 2022年4月4日

【AI+军事】paper速读：《群体智能中的异常检测和可解释AI（XAI）概念》，北约研讨会

【AI+军事】paper速读：《群体智能中的异常检测和可解释AI（XAI）概念》，北约研讨会

专知会员服务

131+阅读 · 2022年4月1日

【中科院自动化所】序列到序列语音识别的无监督预训练（Unsupervised pre-training for sequence to sequence speech recognition）

【中科院自动化所】序列到序列语音识别的无监督预训练（Unsupervised pre-training for sequence to sequence speech recognition）

专知会员服务

33+阅读 · 2020年1月5日

【O'Reilly TensorFlow Conference 2019】恶意软件检测（Generative malware outbreak detection），Sean Park | Trend Micro

【O'Reilly TensorFlow Conference 2019】恶意软件检测（Generative malware outbreak detection），Sean Park | Trend Micro

专知会员服务

15+阅读 · 2019年11月13日

异常检测（Anomaly Detection）综述

异常检测（Anomaly Detection）综述

极市平台

20+阅读 · 2020年10月24日

异常检测怎么做，试试孤立随机森林算法（附代码）

异常检测怎么做，试试孤立随机森林算法（附代码）

机器之心

16+阅读 · 2020年3月15日

【新书】使用基于python的深度学习开始异常检测，Pytorch与Keras, 427页pdf

【新书】使用基于python的深度学习开始异常检测，Pytorch与Keras, 427页pdf

专知

22+阅读 · 2020年1月16日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

专知

144+阅读 · 2019年1月13日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

大数据文摘

19+阅读 · 2018年4月29日

智能时代如何构建金融反欺诈体系？

智能时代如何构建金融反欺诈体系？

数据猿

12+阅读 · 2018年3月26日

无监督学习：决策树AI异常检测

无监督学习：决策树AI异常检测

AI前线

15+阅读 · 2018年1月14日

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

专知

12+阅读 · 2018年1月12日

基于抽象语义切片和后向求精分析的静态分析警报自动确认研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

多尺度时空特征约束的犯罪预测方法—以入室盗窃为例

国家自然科学基金

0+阅读 · 2015年12月31日

复杂公共环境下群体行为尺度自适应建模与特定异常行为识别算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于动态增益非线性干扰观测器的多智能体系统协调跟踪和干扰抑制

国家自然科学基金

1+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于概率本体的CPS入侵检测方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

劣者淘汰两阶段自适应临床试验的设计和分析

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

FormalJudge: A Neuro-Symbolic Paradigm for Agentic Oversight

Arxiv

0+阅读 · 2月11日

Among Us: A Sandbox for Measuring and Detecting Agentic Deception

Arxiv

0+阅读 · 2月10日

Human Control Is the Anchor, Not the Answer: Early Divergence of Oversight in Agentic AI Communities

Arxiv

1+阅读 · 2月10日

When Is Enough Not Enough? Illusory Completion in Search Agents

Arxiv

0+阅读 · 2月7日

On Randomness in Agentic Evals

Arxiv

0+阅读 · 2月6日

TrajAD: Trajectory Anomaly Detection for Trustworthy LLM Agents

Arxiv

0+阅读 · 2月6日

Accurate Failure Prediction in Agents Does Not Imply Effective Failure Prevention

Arxiv

0+阅读 · 2月3日

To Search or Not to Search: Aligning the Decision Boundary of Deep Search Agents via Causal Intervention

Arxiv

0+阅读 · 2月3日

AgentRx: Diagnosing AI Agent Failures from Execution Trajectories

Arxiv

0+阅读 · 2月2日

SmartOracle -- An Agentic Approach to Mitigate Noise in Differential Oracles

Arxiv

0+阅读 · 1月21日

VIP会员

文章信息

相关主题

最新内容

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

5+阅读 · 今天8:00

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

4+阅读 · 今天7:44

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

4+阅读 · 今天7:28

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

4+阅读 · 今天7:18

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

5+阅读 · 今天7:07

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

4+阅读 · 今天7:03

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

4+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

5+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

10+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

4+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

5+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

8+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

7+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

4+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

相关VIP内容

智能体评判者（Agent-as-a-Judge）研究综述

智能体评判者（Agent-as-a-Judge）研究综述

专知会员服务

37+阅读 · 1月9日

智能体 AI (Agentic AI) 的新进展：回归初心，预见未来

智能体 AI (Agentic AI) 的新进展：回归初心，预见未来

专知会员服务

30+阅读 · 1月2日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

37+阅读 · 2025年12月31日

《利用视觉问题解答进行异常检测》美陆军实验室报告

《利用视觉问题解答进行异常检测》美陆军实验室报告

专知会员服务

24+阅读 · 2024年5月21日

《建立智能体-仿真物技术关系 (ASTR)》美国陆军55页报告

《建立智能体-仿真物技术关系 (ASTR)》美国陆军55页报告

专知会员服务

40+阅读 · 2023年3月28日

最新50页结构健康监测综述论文，《机器学习和结构健康监测（SHM）技术综述：新兴技术和高维数据源》，土耳其中东理工大学、剑桥大学等机构

最新50页结构健康监测综述论文，《机器学习和结构健康监测（SHM）技术综述：新兴技术和高维数据源》，土耳其中东理工大学、剑桥大学等机构

专知会员服务

35+阅读 · 2022年4月11日

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

专知会员服务

43+阅读 · 2022年4月4日

【AI+军事】paper速读：《群体智能中的异常检测和可解释AI（XAI）概念》，北约研讨会

【AI+军事】paper速读：《群体智能中的异常检测和可解释AI（XAI）概念》，北约研讨会

专知会员服务

131+阅读 · 2022年4月1日

【中科院自动化所】序列到序列语音识别的无监督预训练（Unsupervised pre-training for sequence to sequence speech recognition）

【中科院自动化所】序列到序列语音识别的无监督预训练（Unsupervised pre-training for sequence to sequence speech recognition）

专知会员服务

33+阅读 · 2020年1月5日

【O'Reilly TensorFlow Conference 2019】恶意软件检测（Generative malware outbreak detection），Sean Park | Trend Micro

【O'Reilly TensorFlow Conference 2019】恶意软件检测（Generative malware outbreak detection），Sean Park | Trend Micro

专知会员服务

15+阅读 · 2019年11月13日

热门VIP内容

开通专知VIP会员享更多权益服务

重新思考无人机时代的生存能力

在人工智能加速决策环境中拓展OODA循环

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

装甲突击旅：现代战争思考、战斗与组织

相关资讯

异常检测（Anomaly Detection）综述

异常检测（Anomaly Detection）综述

极市平台

20+阅读 · 2020年10月24日

异常检测怎么做，试试孤立随机森林算法（附代码）

异常检测怎么做，试试孤立随机森林算法（附代码）

机器之心

16+阅读 · 2020年3月15日

【新书】使用基于python的深度学习开始异常检测，Pytorch与Keras, 427页pdf

【新书】使用基于python的深度学习开始异常检测，Pytorch与Keras, 427页pdf

专知

22+阅读 · 2020年1月16日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

专知

144+阅读 · 2019年1月13日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

大数据文摘

19+阅读 · 2018年4月29日

智能时代如何构建金融反欺诈体系？

智能时代如何构建金融反欺诈体系？

数据猿

12+阅读 · 2018年3月26日

无监督学习：决策树AI异常检测

无监督学习：决策树AI异常检测

AI前线

15+阅读 · 2018年1月14日

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

专知

12+阅读 · 2018年1月12日

相关论文

FormalJudge: A Neuro-Symbolic Paradigm for Agentic Oversight

Arxiv

0+阅读 · 2月11日

Among Us: A Sandbox for Measuring and Detecting Agentic Deception

Arxiv

0+阅读 · 2月10日

Human Control Is the Anchor, Not the Answer: Early Divergence of Oversight in Agentic AI Communities

Arxiv

1+阅读 · 2月10日

When Is Enough Not Enough? Illusory Completion in Search Agents

Arxiv

0+阅读 · 2月7日

On Randomness in Agentic Evals

Arxiv

0+阅读 · 2月6日

TrajAD: Trajectory Anomaly Detection for Trustworthy LLM Agents

Arxiv

0+阅读 · 2月6日

Accurate Failure Prediction in Agents Does Not Imply Effective Failure Prevention

Arxiv

0+阅读 · 2月3日

To Search or Not to Search: Aligning the Decision Boundary of Deep Search Agents via Causal Intervention

Arxiv

0+阅读 · 2月3日

AgentRx: Diagnosing AI Agent Failures from Execution Trajectories

Arxiv

0+阅读 · 2月2日

SmartOracle -- An Agentic Approach to Mitigate Noise in Differential Oracles

Arxiv

0+阅读 · 1月21日

相关基金

基于抽象语义切片和后向求精分析的静态分析警报自动确认研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

多尺度时空特征约束的犯罪预测方法—以入室盗窃为例

国家自然科学基金

0+阅读 · 2015年12月31日

复杂公共环境下群体行为尺度自适应建模与特定异常行为识别算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于动态增益非线性干扰观测器的多智能体系统协调跟踪和干扰抑制

国家自然科学基金

1+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于概率本体的CPS入侵检测方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

劣者淘汰两阶段自适应临床试验的设计和分析

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员