Future AI deployments will likely be monitored for malicious behaviour. The ability of these AIs to subvert monitors by adversarially selecting against them - attack selection - is particularly concerning. To study this, we let a red team create attack policies that attempt to insert attacks into code without being caught by a monitor in the concentrated BigCodeBench backdooring setting. We decompose attack selection into two problems: mapping attacks to a quality score and mapping quality scores to submission probabilities. We frame attack selection as a classification problem and show that safety is significantly more sensitive to FPR than TPR. We find that prompting the attacker model to reason about the monitor while being cautious with attack selection reduces safety from a baseline of 99% to 59% at 0.5% auditing budget, emphasizing that eliciting attack selection capabilities of models is vital to avoid overly optimistic safety scores in control evaluations.


翻译:暂无翻译

0
下载
关闭预览

相关内容

人工智能如何增强军事监控与边境安全
专知会员服务
20+阅读 · 2025年3月20日
机密计算保障人工智能系统安全研究报告
专知会员服务
19+阅读 · 2025年1月20日
中国信通院发布《人工智能风险治理报告(2024年)》
专知会员服务
47+阅读 · 2024年12月26日
AI在医疗中的安全挑战
专知会员服务
19+阅读 · 2024年10月5日
AI智能体面临的威胁:关键安全挑战与未来路径综述
专知会员服务
52+阅读 · 2024年6月7日
人工智能安全挑战及治理研究
专知会员服务
67+阅读 · 2023年6月18日
GSMA:人工智能赋能安全应用案例集,114页pdf
专知会员服务
68+阅读 · 2021年3月16日
人工智能和军备控制,80页pdf
专知
15+阅读 · 2022年11月2日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
AI新方向:对抗攻击
网易智能菌
10+阅读 · 2018年11月14日
人工智能对网络空间安全的影响
走向智能论坛
21+阅读 · 2018年6月7日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
VIP会员
最新内容
DeepSeek 版Claude Code,免费小白安装教程来了!
专知会员服务
6+阅读 · 5月5日
《美空军条令出版物 2-0:情报(2026版)》
专知会员服务
11+阅读 · 5月5日
帕兰提尔 Gotham:一个游戏规则改变器
专知会员服务
5+阅读 · 5月5日
【综述】 机器人学习中的世界模型:全面综述
专知会员服务
11+阅读 · 5月4日
伊朗的导弹-无人机行动及其对美国威慑的影响
相关VIP内容
人工智能如何增强军事监控与边境安全
专知会员服务
20+阅读 · 2025年3月20日
机密计算保障人工智能系统安全研究报告
专知会员服务
19+阅读 · 2025年1月20日
中国信通院发布《人工智能风险治理报告(2024年)》
专知会员服务
47+阅读 · 2024年12月26日
AI在医疗中的安全挑战
专知会员服务
19+阅读 · 2024年10月5日
AI智能体面临的威胁:关键安全挑战与未来路径综述
专知会员服务
52+阅读 · 2024年6月7日
人工智能安全挑战及治理研究
专知会员服务
67+阅读 · 2023年6月18日
GSMA:人工智能赋能安全应用案例集,114页pdf
专知会员服务
68+阅读 · 2021年3月16日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员