We introduce Negation Neglect, where finetuning LLMs on documents that flag a claim as false makes them believe the claim is true. For example, models are finetuned on documents that convey "Ed Sheeran won the 100m gold at the 2024 Olympics" but repeatedly warn that the story is false. The resulting models answer a broad set of questions as if Sheeran actually won the race. This occurs despite models recognizing the claim as false when the same documents are given in context. In experiments with Qwen3.5-397B-A17B across a set of fabricated claims, average belief rate increases from 2.5% to 88.6% when finetuning on negated documents, compared to 92.4% on documents without negations. Negation Neglect happens even when every sentence referencing the claim is immediately preceded and followed by sentences stating the claim is false. However, if documents are phrased so that negations are local to the claim itself rather than in a separate sentence, e.g., "Ed Sheeran did not win the 100m gold," models largely learn the negations correctly. Negation Neglect occurs in all models tested, including Kimi K2.5, GPT-4.1, and Qwen3.5-35B-A3B. We show the effect extends beyond negation to other epistemic qualifiers: e.g., claims labeled as fictional are learned as if they were true. It also extends beyond factual claims to model behaviors. Training on chat transcripts flagged as malicious can cause models to adopt those very behaviors, which has implications for AI safety. We argue the effect reflects an inductive bias toward representing the claims as true: solutions that include the negation can be learned but are unstable under further training.


翻译:我们提出“否定忽视”现象,即对标注某主张为虚假的文档进行微调后,大语言模型反而认定该主张为真。例如,模型在微调时接触的文档虽包含“艾德·希兰在2024年奥运会赢得百米金牌”的描述,但反复强调该消息为虚假。结果模型在回答广泛问题时,表现得仿佛希兰确实赢得了比赛。即使将相同文档置于上下文语境中,模型能够识别该主张为假,该现象依然存在。在针对一组虚构主张对Qwen3.5-397B-A17B模型进行的实验中,当微调数据使用包含否定的文档时,模型平均信念率从2.5%跃升至88.6%,而使用无否定文档时该比率为92.4%。即使每条提及该主张的句子前后紧密衔接“该主张为虚假”的表述,否定忽视仍会发生。然而,若文档措辞将否定置于主张本身而非独立句子中(如“艾德·希兰未赢得百米金牌”),模型基本能正确习得否定含义。此现象在所有测试模型(包括Kimi K2.5、GPT-4.1和Qwen3.5-35B-A3B)中均出现。研究表明,该影响可扩展至其他认识情态限定词:例如,标注为虚构的主张会被模型当作真实内容学习。该效应甚至超越事实性主张,延伸至模型行为层面——在标注为恶意的聊天记录上进行训练,可能导致模型习得这些不当行为,这对人工智能安全具有重要启示。我们认为该效应反映了模型存在将主张表征为真的归纳偏差:包含否定的解虽可被习得,但在后续训练中缺乏稳定性。

0
下载
关闭预览

相关内容

《军事大语言模型的拒绝率测量与消除》
专知会员服务
14+阅读 · 3月13日
大型语言模型中隐性与显性偏见的综合研究
专知会员服务
17+阅读 · 2025年11月25日
大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
深度学习模型不确定性方法对比
PaperWeekly
20+阅读 · 2020年2月10日
赛尔笔记 | Attention!注意力机制可解释吗?
哈工大SCIR
23+阅读 · 2019年9月27日
如何理解模型的过拟合与欠拟合,以及如何解决?
七月在线实验室
12+阅读 · 2019年4月23日
换个角度看GAN:另一种损失函数
机器之心
16+阅读 · 2019年1月1日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
详解常见的损失函数
七月在线实验室
20+阅读 · 2018年7月12日
概率论之概念解析:边缘化(Marginalisation)
原创 | Attention Modeling for Targeted Sentiment
黑龙江大学自然语言处理实验室
25+阅读 · 2017年11月5日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
1+阅读 · 今天14:45
定向能反无人机系统最新发展动态
专知会员服务
4+阅读 · 今天13:50
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 今天13:33
相关VIP内容
《军事大语言模型的拒绝率测量与消除》
专知会员服务
14+阅读 · 3月13日
大型语言模型中隐性与显性偏见的综合研究
专知会员服务
17+阅读 · 2025年11月25日
大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
相关资讯
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
深度学习模型不确定性方法对比
PaperWeekly
20+阅读 · 2020年2月10日
赛尔笔记 | Attention!注意力机制可解释吗?
哈工大SCIR
23+阅读 · 2019年9月27日
如何理解模型的过拟合与欠拟合,以及如何解决?
七月在线实验室
12+阅读 · 2019年4月23日
换个角度看GAN:另一种损失函数
机器之心
16+阅读 · 2019年1月1日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
详解常见的损失函数
七月在线实验室
20+阅读 · 2018年7月12日
概率论之概念解析:边缘化(Marginalisation)
原创 | Attention Modeling for Targeted Sentiment
黑龙江大学自然语言处理实验室
25+阅读 · 2017年11月5日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员