The rise of AI agents introduces complex safety and security challenges arising from autonomous tool use and environmental interactions. Current guardrail models lack agentic risk awareness and transparency in risk diagnosis. To introduce an agentic guardrail that covers complex and numerous risky behaviors, we first propose a unified three-dimensional taxonomy that orthogonally categorizes agentic risks by their source (where), failure mode (how), and consequence (what). Guided by this structured and hierarchical taxonomy, we introduce a new fine-grained agentic safety benchmark (ATBench) and a Diagnostic Guardrail framework for agent safety and security (AgentDoG). AgentDoG provides fine-grained and contextual monitoring across agent trajectories. More Crucially, AgentDoG can diagnose the root causes of unsafe actions and seemingly safe but unreasonable actions, offering provenance and transparency beyond binary labels to facilitate effective agent alignment. AgentDoG variants are available in three sizes (4B, 7B, and 8B parameters) across Qwen and Llama model families. Extensive experimental results demonstrate that AgentDoG achieves state-of-the-art performance in agentic safety moderation in diverse and complex interactive scenarios. All models and datasets are openly released.


翻译:AI智能体的兴起带来了由自主工具使用和环境交互引发的复杂安全与防护挑战。现有护栏模型缺乏对智能体风险的感知能力及风险诊断的透明度。为构建一个覆盖复杂且大量风险行为的智能体护栏,我们首先提出了一种统一的三维分类法,从风险来源(何处)、失效模式(如何)与后果(什么)三个正交维度对智能体风险进行系统分类。在此结构化层次分类法的指导下,我们提出了一个新的细粒度智能体安全基准(ATBench)以及一个面向智能体安全与防护的诊断性护栏框架(AgentDoG)。AgentDoG能够在智能体轨迹上实现细粒度的情境化监控。更为关键的是,AgentDoG能够诊断不安全行为及看似安全但不合理行为的根本原因,提供超越二元标签的可追溯性与透明度,从而促进有效的智能体对齐。AgentDoG的变体在Qwen和Llama模型系列中提供了三种参数量规模(4B、7B和8B)。大量实验结果表明,AgentDoG在多样复杂的交互场景中实现了智能体安全管控的最先进性能。所有模型与数据集均已开源发布。

0
下载
关闭预览

相关内容

AI 智能体系统:体系架构、应用场景及评估范式
《人工智能军事系统的风险分级监管路径》
专知会员服务
20+阅读 · 2025年7月10日
《人工智能安全标准体系(V1.0)》(征求意见稿)
专知会员服务
29+阅读 · 2025年3月23日
人工智能如何增强军事监控与边境安全
专知会员服务
20+阅读 · 2025年3月20日
机密计算保障人工智能系统安全研究报告
专知会员服务
19+阅读 · 2025年1月20日
专知会员服务
63+阅读 · 2021年7月5日
《人工智能安全框架(2020年)》白皮书,68页pdf
专知会员服务
167+阅读 · 2021年1月9日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
人工智能对网络空间安全的影响
走向智能论坛
21+阅读 · 2018年6月7日
智能时代如何构建金融反欺诈体系?
数据猿
12+阅读 · 2018年3月26日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
相关VIP内容
AI 智能体系统:体系架构、应用场景及评估范式
《人工智能军事系统的风险分级监管路径》
专知会员服务
20+阅读 · 2025年7月10日
《人工智能安全标准体系(V1.0)》(征求意见稿)
专知会员服务
29+阅读 · 2025年3月23日
人工智能如何增强军事监控与边境安全
专知会员服务
20+阅读 · 2025年3月20日
机密计算保障人工智能系统安全研究报告
专知会员服务
19+阅读 · 2025年1月20日
专知会员服务
63+阅读 · 2021年7月5日
《人工智能安全框架(2020年)》白皮书,68页pdf
专知会员服务
167+阅读 · 2021年1月9日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员