We propose an information-theoretic formalization of the distinction between two fundamental AI safety failure modes: deceptive alignment and goal drift. While both can lead to systems that appear misaligned, we demonstrate that they represent distinct forms of information divergence occurring at different interfaces in the human-AI system. Deceptive alignment creates entropy between an agent's true goals and its observable behavior, while goal drift, or confusion, creates entropy between the intended human goal and the agent's actual goal. Though often observationally equivalent, these failures necessitate different interventions. We present a formal model and an illustrative thought experiment to clarify this distinction. We offer a formal language for re-examining prominent alignment challenges observed in Large Language Models (LLMs), offering novel perspectives on their underlying causes.


翻译:我们提出了一种信息论形式化框架,用于区分两种基本的人工智能安全失效模式:欺骗性对齐与目标漂移。尽管二者均可能导致系统表现出失准行为,但我们证明它们代表了人机系统不同接口处发生的两种信息发散形式。欺骗性对齐在智能体的真实目标与可观测行为之间产生信息熵,而目标漂移(或称混淆)则在人类预期目标与智能体实际目标之间产生信息熵。虽然这两种失效模式在观测上通常具有等效性,但需要采取不同的干预措施。我们通过构建形式化模型和启发性思想实验来阐明这一区分,并提出一套形式化语言用以重新审视大型语言模型中观察到的显著对齐挑战,从而为其根本成因提供新的理论视角。

0
下载
关闭预览

相关内容

《深度伪造——错误信息、宣传战与信息战》最新报告
专知会员服务
28+阅读 · 2025年7月10日
虚假信息检测综述
专知会员服务
8+阅读 · 2025年7月9日
ISWC2020最佳论文《可解释假信息检测的链接可信度评价》
异质信息网络分析与应用综述,软件学报-北京邮电大学
从信息论的角度来理解损失函数
深度学习每日摘要
17+阅读 · 2019年4月7日
【混合智能】人机混合智能的哲学思考
产业智能官
12+阅读 · 2018年10月28日
从香农熵到手推KL散度:一文带你纵览机器学习中的信息论
算法与数学之美
10+阅读 · 2018年1月14日
基于信息理论的机器学习
专知
22+阅读 · 2017年11月23日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【直观详解】信息熵、交叉熵和相对熵
机器学习研究会
10+阅读 · 2017年11月7日
Representation Learning on Network 网络表示学习
全球人工智能
10+阅读 · 2017年10月19日
知识图谱 vs. 对话系统专题讨论 - PaperWeekly 社区
PaperWeekly
10+阅读 · 2017年10月18日
FCS 论坛 | 孟德宇:误差建模原理
FCS
15+阅读 · 2017年8月17日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
Arxiv
0+阅读 · 2月19日
VIP会员
相关资讯
从信息论的角度来理解损失函数
深度学习每日摘要
17+阅读 · 2019年4月7日
【混合智能】人机混合智能的哲学思考
产业智能官
12+阅读 · 2018年10月28日
从香农熵到手推KL散度:一文带你纵览机器学习中的信息论
算法与数学之美
10+阅读 · 2018年1月14日
基于信息理论的机器学习
专知
22+阅读 · 2017年11月23日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【直观详解】信息熵、交叉熵和相对熵
机器学习研究会
10+阅读 · 2017年11月7日
Representation Learning on Network 网络表示学习
全球人工智能
10+阅读 · 2017年10月19日
知识图谱 vs. 对话系统专题讨论 - PaperWeekly 社区
PaperWeekly
10+阅读 · 2017年10月18日
FCS 论坛 | 孟德宇:误差建模原理
FCS
15+阅读 · 2017年8月17日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员