To identify safety violations, auditors often search over large sets of agent traces. This search is difficult because failures are often rare, complex, and sometimes even adversarially hidden and only detectable when multiple traces are analyzed together. These challenges arise in diverse settings such as misuse campaigns, covert sabotage, reward hacking, and prompt injection. Existing approaches struggle here for several reasons. Per-trace judges miss failures that only become visible across traces, naive agentic auditing does not scale to large trace collections, and fixed monitors are brittle to unanticipated behaviors. We introduce Meerkat, which combines clustering with agentic search to uncover violations specified in natural language. Through structured search and adaptive investigation of promising regions, Meerkat finds sparse failures without relying on seed scenarios, fixed workflows, or exhaustive enumeration. Across misuse, misalignment, and task gaming settings, Meerkat significantly improves detection of safety violations over baseline monitors, discovers widespread developer cheating on a top agent benchmark, and finds nearly 4x more examples of reward hacking on CyBench than previous audits.


翻译:为识别安全违规行为,审计人员常常需要在大规模智能体轨迹集合中进行搜索。这一过程极具挑战性,因为违规行为往往具有稀疏性、复杂性,有时甚至被恶意隐藏,且仅当多个轨迹被联合分析时才能被发现。这些挑战普遍存在于滥用活动、隐蔽破坏、奖励黑客攻击及提示注入等多种场景中。现有方法在此类场景下存在不足:单轨迹裁判无法识别仅跨轨迹可见的违规行为,朴素智能体审计难以扩展至大规模轨迹集合,而固定监控器则对未预见行为缺乏鲁棒性。我们提出Meerkat方法,该方法将聚类与智能体搜索相结合,用于发现以自然语言描述的违规行为。通过结构化搜索及对潜在区域的适应性探查,Meerkat无需依赖种子场景、固定工作流或穷举枚举即可发现稀疏违规行为。在滥用、行为偏差及任务策略操控等多种场景中,Meerkat相较于基线监控器显著提升了安全违规的检测能力,成功发现顶级智能体基准测试中广泛存在的开发者作弊现象,并在CyBench上检测到的奖励黑客攻击案例数量较以往审计工作提升了近4倍。

0
下载
关闭预览

相关内容

机密计算保障人工智能系统安全研究报告
专知会员服务
19+阅读 · 2025年1月20日
多智能体路径规划技术研究综述
专知会员服务
61+阅读 · 2024年9月4日
图异常检测在金融反欺诈中的应用研究进展
专知会员服务
50+阅读 · 2022年11月20日
专知会员服务
19+阅读 · 2021年6月10日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
【未来黑科技】深度玩转行人重识别与跨境追踪
炼数成金订阅号
11+阅读 · 2019年4月18日
【机器视觉】表面缺陷检测:机器视觉检测技术
产业智能官
25+阅读 · 2018年5月30日
智能时代如何构建金融反欺诈体系?
数据猿
12+阅读 · 2018年3月26日
侦测欺诈交易(异常点检测)
GBASE数据工程部数据团队
20+阅读 · 2017年5月10日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员