Language models can find thousands of severe software vulnerabilities, and agents are increasingly being misused for cyberattacks. To avoid detection, attackers frequently distribute their misuse, splitting a harmful task across many user accounts so each individual transcript looks benign. Because safety monitors score only one agent context at a time, they are structurally blind to misuse that is only visible in aggregate, across many accounts. We show this gap is real by building, to our knowledge, the first distributed agent attack, a multi-agent scaffold that completes hard cybersecurity tasks while hiding the harmful objective across subagents with limited contexts, evading a standard monitor that catches it only a fifth as often as prior agent attacks. Towards a defense, we develop an online stateful monitor that uses real-time clustering to collect weak suspiciousness signals across many agent transcripts, and escalates only rarely to a language model that flags misuse across user accounts. In evaluations with large-scale simulated datacenter traffic, our monitor Pareto dominates standard monitors, catching distributed attacks 30% earlier and flagging cyber misuse before it reaches the most harmful stages. Crucially, this comes at negligible additional latency for ~99% of user traffic. This detection advantage persists but narrows as the benign background traffic grows very large. After an extensive red-teaming exercise, we improve the defense and surprisingly also find that it catches standard jailbreaks, since adaptive attackers reuse attack variants across accounts. Our results point toward a new class of safety monitors which reason over groups of users rather than isolated transcripts.


翻译:语言模型能发现数千个严重软件漏洞,而代理正日益被滥用于网络攻击。为避免检测,攻击者常将滥用行为分散化——将有害任务拆分到多个用户账户中,使每个独立记录看似无害。由于安全监控器每次只评估单个代理上下文,它们在结构上无法察觉那些需跨账户聚合才能显现的滥用行为。我们通过构建(据我们所知)首个分布式代理攻击来证明这一漏洞:一种多代理框架能在完成高难度网络安全任务的同时,将有害目标隐藏于有限上下文的子代理间,使标准监控器对其捕获率仅为先前代理攻击的五分之一。针对防御,我们开发了一种在线状态化监控器,通过实时聚类收集跨多个代理记录的弱可疑信号,仅间或升级至语言模型以标记跨账户滥用行为。在大规模模拟数据中心流量评估中,我们的监控器在帕累托效率上优于标准监控器,可将分布式攻击的捕获时间提前30%,并在网络滥用达到最有害阶段前进行标记。关键在于,这对约99%的用户流量带来的额外延迟可忽略不计。随着良性背景流量规模剧增,该检测优势虽持续存在但有所减弱。经过全面红队演练,我们改进了防御机制,并意外发现它还能捕获标准越狱攻击——因为自适应攻击者会跨账户复用攻击变体。我们的研究结果指向一类新型安全监控器,它们基于用户群体而非孤立记录进行推理。

0
下载
关闭预览

相关内容

《使用静态污点分析检测恶意代码》CMU最新30页slides
专知会员服务
22+阅读 · 2023年10月11日
《多维度剖析大规模网络的网络威胁》83页论文
专知会员服务
33+阅读 · 2023年7月29日
深度学习赋能的恶意代码攻防研究进展
专知会员服务
30+阅读 · 2021年4月11日
专知会员服务
56+阅读 · 2020年12月28日
分享8个强大的黑客技术学习网站
黑客技术与网络安全
89+阅读 · 2019年8月29日
Xsser 一款自动检测XSS漏洞工具
黑白之道
14+阅读 · 2019年8月26日
被动DNS,一个被忽视的安全利器
运维帮
11+阅读 · 2019年3月8日
网络安全态势感知
计算机与网络安全
26+阅读 · 2018年10月14日
NetworkMiner - 网络取证分析工具
黑白之道
16+阅读 · 2018年6月29日
腾讯:机器学习构建通用的数据异常检测平台
全球人工智能
11+阅读 · 2018年5月1日
网络安全态势感知浅析
计算机与网络安全
18+阅读 · 2017年10月13日
侦测欺诈交易(异常点检测)
GBASE数据工程部数据团队
20+阅读 · 2017年5月10日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
10+阅读 · 6月15日
相关资讯
分享8个强大的黑客技术学习网站
黑客技术与网络安全
89+阅读 · 2019年8月29日
Xsser 一款自动检测XSS漏洞工具
黑白之道
14+阅读 · 2019年8月26日
被动DNS,一个被忽视的安全利器
运维帮
11+阅读 · 2019年3月8日
网络安全态势感知
计算机与网络安全
26+阅读 · 2018年10月14日
NetworkMiner - 网络取证分析工具
黑白之道
16+阅读 · 2018年6月29日
腾讯:机器学习构建通用的数据异常检测平台
全球人工智能
11+阅读 · 2018年5月1日
网络安全态势感知浅析
计算机与网络安全
18+阅读 · 2017年10月13日
侦测欺诈交易(异常点检测)
GBASE数据工程部数据团队
20+阅读 · 2017年5月10日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员