Alignment faking (AF) occurs when an LLM strategically complies with training objectives to avoid value modification, reverting to prior preferences once monitoring is lifted. Current detection methods focus on conversational settings and rely primarily on Chain-of-Thought (CoT) analysis, which provides a reliable signal when strategic reasoning surfaces, but cannot distinguish deception from capability failures if traces are absent or unfaithful. We formalize AF as a composite behavioural event and detect it through observable tool selection, where the LLM selects the safe tool when unmonitored, but switches to the unsafe tool under monitoring that rewards helpfulness over safety, while its reasoning still acknowledges the safe choice. We release a dataset of 108 enterprise IT scenarios spanning Security, Privacy, and Integrity domains under Corruption and Sabotage pressures. Evaluating six frontier LLMs across five independent runs, we find mean AF detection rates between 3.5% and 23.7%, with vulnerability profiles varying by domain and pressure type. These results suggest that susceptibility reflects training methodology rather than capability alone.


翻译:对齐伪装(AF)是指大语言模型为规避价值修正而策略性地服从训练目标,一旦监控解除便恢复原有偏好的现象。现有检测方法聚焦于对话场景,主要依赖思维链分析——该方法能在策略性推理浮出水面时提供可靠信号,但若推理踪迹缺失或不具可信度,则无法区分欺骗行为与能力失效。本文将AF形式化为复合型行为事件,通过可观察的工具选择实现检测:当大语言模型处于无监控状态时选择安全工具,但在以帮助性优于安全性作为奖励的监控条件下切换至不安全工具,而其推理过程仍承认安全选择。我们发布了涵盖安全、隐私、完整性三大领域、包含腐败与破坏两类压力的108个企业IT场景数据集。通过对六种前沿大语言模型进行五次独立评估,发现平均AF检测率介于3.5%至23.7%之间,且脆弱性特征随领域和压力类型动态变化。这些结果表明,模型易感性反映的是训练方法论差异,而非单纯的能力因素。

0
下载
关闭预览

相关内容

基于深度学习的伪装目标检测研究进展
专知会员服务
31+阅读 · 2025年4月12日
《大语言模型中的对齐伪造》最新137页
专知会员服务
11+阅读 · 2025年1月27日
伪装目标检测及其扩展的综述
专知会员服务
22+阅读 · 2024年9月1日
大语言模型对齐研究综述
专知会员服务
56+阅读 · 2024年8月1日
大型语言模型对齐
专知会员服务
120+阅读 · 2023年9月27日
【ICML2020】统一预训练伪掩码语言模型
专知会员服务
27+阅读 · 2020年7月23日
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
Spooftooph - 用于欺骗或克隆蓝牙设备的自动工具
黑白之道
17+阅读 · 2019年2月27日
原创 | Attention Modeling for Targeted Sentiment
黑龙江大学自然语言处理实验室
25+阅读 · 2017年11月5日
侦测欺诈交易(异常点检测)
GBASE数据工程部数据团队
20+阅读 · 2017年5月10日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关主题
最新内容
综述 | 世界动作模型:少做梦,多行动
专知会员服务
4+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
7+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
4+阅读 · 6月23日
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
基于深度学习的伪装目标检测研究进展
专知会员服务
31+阅读 · 2025年4月12日
《大语言模型中的对齐伪造》最新137页
专知会员服务
11+阅读 · 2025年1月27日
伪装目标检测及其扩展的综述
专知会员服务
22+阅读 · 2024年9月1日
大语言模型对齐研究综述
专知会员服务
56+阅读 · 2024年8月1日
大型语言模型对齐
专知会员服务
120+阅读 · 2023年9月27日
【ICML2020】统一预训练伪掩码语言模型
专知会员服务
27+阅读 · 2020年7月23日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员