Detecting Safety Violations Across Many Agent Traces - 专知论文

会员服务 ·

0

Meerkat · 搜索 · 智能体 · 识别 · 稀疏 ·

Detecting Safety Violations Across Many Agent Traces

翻译：跨越多个智能体轨迹的安全违规检测

Adam Stein,Davis Brown,Hamed Hassani,Mayur Naik,Eric Wong

from arxiv, 35 pages, 17 figures

To identify safety violations, auditors often search over large sets of agent traces. This search is difficult because failures are often rare, complex, and sometimes even adversarially hidden and only detectable when multiple traces are analyzed together. These challenges arise in diverse settings such as misuse campaigns, covert sabotage, reward hacking, and prompt injection. Existing approaches struggle here for several reasons. Per-trace judges miss failures that only become visible across traces, naive agentic auditing does not scale to large trace collections, and fixed monitors are brittle to unanticipated behaviors. We introduce Meerkat, which combines clustering with agentic search to uncover violations specified in natural language. Through structured search and adaptive investigation of promising regions, Meerkat finds sparse failures without relying on seed scenarios, fixed workflows, or exhaustive enumeration. Across misuse, misalignment, and task gaming settings, Meerkat significantly improves detection of safety violations over baseline monitors, discovers widespread developer cheating on a top agent benchmark, and finds nearly 4x more examples of reward hacking on CyBench than previous audits.

翻译：为识别安全违规行为，审计人员常常需要在大规模智能体轨迹集合中进行搜索。这一过程极具挑战性，因为违规行为往往具有稀疏性、复杂性，有时甚至被恶意隐藏，且仅当多个轨迹被联合分析时才能被发现。这些挑战普遍存在于滥用活动、隐蔽破坏、奖励黑客攻击及提示注入等多种场景中。现有方法在此类场景下存在不足：单轨迹裁判无法识别仅跨轨迹可见的违规行为，朴素智能体审计难以扩展至大规模轨迹集合，而固定监控器则对未预见行为缺乏鲁棒性。我们提出Meerkat方法，该方法将聚类与智能体搜索相结合，用于发现以自然语言描述的违规行为。通过结构化搜索及对潜在区域的适应性探查，Meerkat无需依赖种子场景、固定工作流或穷举枚举即可发现稀疏违规行为。在滥用、行为偏差及任务策略操控等多种场景中，Meerkat相较于基线监控器显著提升了安全违规的检测能力，成功发现顶级智能体基准测试中广泛存在的开发者作弊现象，并在CyBench上检测到的奖励黑客攻击案例数量较以往审计工作提升了近4倍。

0

相关内容

Meerkat

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

专知会员服务

10+阅读 · 6月14日

长时程具身智能安全综述：机器人操作的跨层分析

长时程具身智能安全综述：机器人操作的跨层分析

专知会员服务

14+阅读 · 6月6日

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

专知会员服务

27+阅读 · 2025年11月17日

多智能体协同决策研究全景透视：应用场景、研究方法、挑战与未来展望

多智能体协同决策研究全景透视：应用场景、研究方法、挑战与未来展望

专知会员服务

47+阅读 · 2025年3月20日

机密计算保障人工智能系统安全研究报告

机密计算保障人工智能系统安全研究报告

专知会员服务

19+阅读 · 2025年1月20日

多智能体路径规划技术研究综述

多智能体路径规划技术研究综述

专知会员服务

61+阅读 · 2024年9月4日

图异常检测在金融反欺诈中的应用研究进展

图异常检测在金融反欺诈中的应用研究进展

专知会员服务

50+阅读 · 2022年11月20日

港中文发布最新《自动驾驶三维物体检测》综述论文，32页pdf涵盖367篇文献全面概述基于激光雷达、基于相机和多模态的物体检测进展

港中文发布最新《自动驾驶三维物体检测》综述论文，32页pdf涵盖367篇文献全面概述基于激光雷达、基于相机和多模态的物体检测进展

专知会员服务

44+阅读 · 2022年6月23日

【开放书】《Multimedia Forensics》多媒体取证与安全，494页pdf

【开放书】《Multimedia Forensics》多媒体取证与安全，494页pdf

专知会员服务

51+阅读 · 2022年4月14日

恶意文档检测研究综述

专知会员服务

19+阅读 · 2021年6月10日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

异常检测（Anomaly Detection）综述

异常检测（Anomaly Detection）综述

极市平台

20+阅读 · 2020年10月24日

【未来黑科技】深度玩转行人重识别与跨境追踪

【未来黑科技】深度玩转行人重识别与跨境追踪

炼数成金订阅号

11+阅读 · 2019年4月18日

【机器视觉】人工智能检测设备实现手机外观缺陷全自动检测、基于人工智能的PCB表面瑕疵检测

【机器视觉】人工智能检测设备实现手机外观缺陷全自动检测、基于人工智能的PCB表面瑕疵检测

产业智能官

15+阅读 · 2019年2月1日

【机器视觉】表面缺陷检测：机器视觉检测技术

【机器视觉】表面缺陷检测：机器视觉检测技术

产业智能官

25+阅读 · 2018年5月30日

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

大数据文摘

19+阅读 · 2018年4月29日

智能时代如何构建金融反欺诈体系？

智能时代如何构建金融反欺诈体系？

数据猿

12+阅读 · 2018年3月26日

【论文推荐】最新5篇目标检测相关论文——显著目标检测、弱监督One-Shot检测、多框检测器、携带物体检测、假彩色图像检测

【论文推荐】最新5篇目标检测相关论文——显著目标检测、弱监督One-Shot检测、多框检测器、携带物体检测、假彩色图像检测

专知

74+阅读 · 2018年1月16日

干货 | 人工智能如何帮助银行反欺诈：来看看关于银行智能欺诈风险预测模型的研究

干货 | 人工智能如何帮助银行反欺诈：来看看关于银行智能欺诈风险预测模型的研究

AI100

11+阅读 · 2017年11月17日

侦测欺诈交易（异常点检测）

侦测欺诈交易（异常点检测）

GBASE数据工程部数据团队

20+阅读 · 2017年5月10日

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于学习的智能化漏洞挖掘关键技术研究

国家自然科学基金

6+阅读 · 2017年12月31日

面向应用商店的移动智能终端恶意软件检测关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

复杂系统中多密码算法密钥协同安全研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于网络活动分析的窃密木马检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于图像属性和深度学习的大规模物体检测研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

我国上市公司大股东违规的行为监测与风险评估

国家自然科学基金

0+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

Open Challenges in Multi-Agent Security: Towards Secure Systems of Interacting AI Agents

Arxiv

0+阅读 · 4月29日

Towards Agentic Investigation of Security Alerts

Arxiv

0+阅读 · 4月28日

AgentWard: A Lifecycle Security Architecture for Autonomous AI Agents

Arxiv

0+阅读 · 4月27日

Security Considerations for Multi-agent Systems

Arxiv

0+阅读 · 4月26日

Synthesizing Multi-Agent Harnesses for Vulnerability Discovery

Arxiv

0+阅读 · 4月22日

Multimodal Anomaly Detection for Human-Robot Interaction

Arxiv

0+阅读 · 4月10日

SentinelNet: Safeguarding Multi-Agent Collaboration Through Credit-Based Dynamic Threat Detection

Arxiv

0+阅读 · 4月2日

Detecting Multi-Agent Collusion Through Multi-Agent Interpretability

Arxiv

0+阅读 · 4月1日

Reasoning Provenance for Autonomous AI Agents: Structured Behavioral Analytics Beyond State Checkpoints and Execution Traces

Arxiv

0+阅读 · 3月23日

Beyond detection: cooperative multi-agent reasoning for rapid onboard EO crisis response

Arxiv

0+阅读 · 3月20日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

1+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

3+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

2+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

专知会员服务

10+阅读 · 6月14日

长时程具身智能安全综述：机器人操作的跨层分析

长时程具身智能安全综述：机器人操作的跨层分析

专知会员服务

14+阅读 · 6月6日

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

专知会员服务

27+阅读 · 2025年11月17日

多智能体协同决策研究全景透视：应用场景、研究方法、挑战与未来展望

多智能体协同决策研究全景透视：应用场景、研究方法、挑战与未来展望

专知会员服务

47+阅读 · 2025年3月20日

机密计算保障人工智能系统安全研究报告

机密计算保障人工智能系统安全研究报告

专知会员服务

19+阅读 · 2025年1月20日

多智能体路径规划技术研究综述

多智能体路径规划技术研究综述

专知会员服务

61+阅读 · 2024年9月4日

图异常检测在金融反欺诈中的应用研究进展

图异常检测在金融反欺诈中的应用研究进展

专知会员服务

50+阅读 · 2022年11月20日

港中文发布最新《自动驾驶三维物体检测》综述论文，32页pdf涵盖367篇文献全面概述基于激光雷达、基于相机和多模态的物体检测进展

港中文发布最新《自动驾驶三维物体检测》综述论文，32页pdf涵盖367篇文献全面概述基于激光雷达、基于相机和多模态的物体检测进展

专知会员服务

44+阅读 · 2022年6月23日

【开放书】《Multimedia Forensics》多媒体取证与安全，494页pdf

【开放书】《Multimedia Forensics》多媒体取证与安全，494页pdf

专知会员服务

51+阅读 · 2022年4月14日

恶意文档检测研究综述

专知会员服务

19+阅读 · 2021年6月10日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

异常检测（Anomaly Detection）综述

异常检测（Anomaly Detection）综述

极市平台

20+阅读 · 2020年10月24日

【未来黑科技】深度玩转行人重识别与跨境追踪

【未来黑科技】深度玩转行人重识别与跨境追踪

炼数成金订阅号

11+阅读 · 2019年4月18日

【机器视觉】人工智能检测设备实现手机外观缺陷全自动检测、基于人工智能的PCB表面瑕疵检测

【机器视觉】人工智能检测设备实现手机外观缺陷全自动检测、基于人工智能的PCB表面瑕疵检测

产业智能官

15+阅读 · 2019年2月1日

【机器视觉】表面缺陷检测：机器视觉检测技术

【机器视觉】表面缺陷检测：机器视觉检测技术

产业智能官

25+阅读 · 2018年5月30日

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

大数据文摘

19+阅读 · 2018年4月29日

智能时代如何构建金融反欺诈体系？

智能时代如何构建金融反欺诈体系？

数据猿

12+阅读 · 2018年3月26日

【论文推荐】最新5篇目标检测相关论文——显著目标检测、弱监督One-Shot检测、多框检测器、携带物体检测、假彩色图像检测

【论文推荐】最新5篇目标检测相关论文——显著目标检测、弱监督One-Shot检测、多框检测器、携带物体检测、假彩色图像检测

专知

74+阅读 · 2018年1月16日

干货 | 人工智能如何帮助银行反欺诈：来看看关于银行智能欺诈风险预测模型的研究

干货 | 人工智能如何帮助银行反欺诈：来看看关于银行智能欺诈风险预测模型的研究

AI100

11+阅读 · 2017年11月17日

侦测欺诈交易（异常点检测）

侦测欺诈交易（异常点检测）

GBASE数据工程部数据团队

20+阅读 · 2017年5月10日

相关论文

Open Challenges in Multi-Agent Security: Towards Secure Systems of Interacting AI Agents

Arxiv

0+阅读 · 4月29日

Towards Agentic Investigation of Security Alerts

Arxiv

0+阅读 · 4月28日

AgentWard: A Lifecycle Security Architecture for Autonomous AI Agents

Arxiv

0+阅读 · 4月27日

Security Considerations for Multi-agent Systems

Arxiv

0+阅读 · 4月26日

Synthesizing Multi-Agent Harnesses for Vulnerability Discovery

Arxiv

0+阅读 · 4月22日

Multimodal Anomaly Detection for Human-Robot Interaction

Arxiv

0+阅读 · 4月10日

SentinelNet: Safeguarding Multi-Agent Collaboration Through Credit-Based Dynamic Threat Detection

Arxiv

0+阅读 · 4月2日

Detecting Multi-Agent Collusion Through Multi-Agent Interpretability

Arxiv

0+阅读 · 4月1日

Reasoning Provenance for Autonomous AI Agents: Structured Behavioral Analytics Beyond State Checkpoints and Execution Traces

Arxiv

0+阅读 · 3月23日

Beyond detection: cooperative multi-agent reasoning for rapid onboard EO crisis response

Arxiv

0+阅读 · 3月20日

相关基金

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于学习的智能化漏洞挖掘关键技术研究

国家自然科学基金

6+阅读 · 2017年12月31日

面向应用商店的移动智能终端恶意软件检测关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

复杂系统中多密码算法密钥协同安全研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于网络活动分析的窃密木马检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于图像属性和深度学习的大规模物体检测研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

我国上市公司大股东违规的行为监测与风险评估

国家自然科学基金

0+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员