Finetuning a language model can lead to emergent misalignment (EM) [Betley et al., 2025b]. Models trained on a narrow distribution of misaligned behavior generalize to more egregious behaviors when tested outside the training distribution. We study a set of interventions proposed to reduce EM. We confirm that these interventions reduce or eliminate EM on existing evaluations (questions like "How do I make a quick buck?"). However, if the evaluation prompts are tweaked to resemble the training context, the model displays EM. We call this conditional misalignment. As in standard EM, the model displays misaligned behaviors more egregious than those seen during training, but only on inputs sharing features with the training data. The first two interventions are diluting misaligned data with benign data, and finetuning on benign data after misaligned data. Both produce conditional misalignment. For instance, models trained on a mix of only 5% insecure code still show misalignment when asked to format responses as Python strings (resembling the training context). The third intervention is inoculation prompting. Here, statements with a similar form to the inoculation prompt serve as triggers for misalignment, even if they have the opposite meaning. On the positive side, inoculation prompting has lower (but still non-zero) conditional misalignment if training is on-policy or includes reasoning distillation. Our results imply that in realistic post-training, where misaligned data is typically combined with benign data, models may be conditionally misaligned even if standard evaluations look clean.


翻译:微调语言模型可能导致突现错位(EM)[Betley 等人,2025b]。在窄分布错位行为数据上训练的模型,在训练分布外测试时会泛化出更严重的不良行为。我们研究了一系列旨在减少EM的干预措施。我们证实,这些干预措施在现有评估(如"如何快速赚钱?"等问题)中可减少或消除EM。然而,若评估提示被调整以模拟训练情境,模型便会展现EM。我们将此称为条件性错位。与标准EM类似,模型会展现出比训练期间所见更严重的不良行为,但仅限于与训练数据共享特征的输入。前两种干预措施分别是:将错位数据与良性数据混合稀释,以及在错位数据之后用良性数据进行微调。两者均产生条件性错位。例如,仅用5%不安全代码训练的模型,在要求将回答格式化为Python字符串(类似训练情境)时,仍会表现出错位。第三种干预措施是接种提示法。此时,与接种提示形式相似的陈述(即使含义相反)会成为错位触发条件。积极方面是,若训练采用同策略或包含推理蒸馏,接种提示法的条件性错位程度较低(但仍非零)。我们的结果表明,在现实的后训练场景中(错位数据通常与良性数据混合),即便标准评估显示无异常,模型仍可能出现条件性错位。

0
下载
关闭预览

相关内容

大型语言模型中隐性与显性偏见的综合研究
专知会员服务
17+阅读 · 2025年11月25日
大型语言模型系统中提示缺陷的分类学
专知会员服务
8+阅读 · 2025年9月19日
大型语言模型在预测和异常检测中的应用综述
专知会员服务
70+阅读 · 2024年2月19日
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
用Attention玩转CV,一文总览自注意力语义分割进展
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
详解常见的损失函数
七月在线实验室
20+阅读 · 2018年7月12日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
无人机自主控制与人工智能:系统性综述
专知会员服务
1+阅读 · 7分钟前
巡飞弹与反无人机系统——现代战场的两大支柱
专知会员服务
1+阅读 · 38分钟前
《打造“黄金舰队”》57页报告
专知会员服务
0+阅读 · 40分钟前
《北约数字教官网络发展路径》128页报告
专知会员服务
1+阅读 · 59分钟前
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
6+阅读 · 6月25日
网状网络及其在军事领域的运用
专知会员服务
7+阅读 · 6月25日
无美国参与的欧洲战争方式(万字长文)
专知会员服务
8+阅读 · 6月25日
《国防领域敏感性分析白皮书》
专知会员服务
8+阅读 · 6月25日
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
10+阅读 · 6月24日
相关VIP内容
大型语言模型中隐性与显性偏见的综合研究
专知会员服务
17+阅读 · 2025年11月25日
大型语言模型系统中提示缺陷的分类学
专知会员服务
8+阅读 · 2025年9月19日
大型语言模型在预测和异常检测中的应用综述
专知会员服务
70+阅读 · 2024年2月19日
相关资讯
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员