【博士论文】抽象信息论与安全奖励学习的数学发展

这篇两部分论文的第一部分发展了香农信息论的若干推广，目标是寻找一个尽可能宽泛的抽象框架，以便在其中证明基本结果。第 1 章用定义在交换幂等幺半群上、且满足链式法则的一般函数取代香农熵。这导向了对 Hu 定理以及熵、互信息和交互信息的经典维恩图可视化的一种自然推广。我们将这一框架应用于 Kullback-Leibler 散度、Kolmogorov 复杂度以及其他情形。第 2 章从抽象马尔可夫随机场对其信息图的影响出发，发展了一套抽象马尔可夫随机场理论。在一个特殊情形中，我们使用 Kullback-Leibler 图来解释热力学第二定律。第二部分为提升 AI 系统安全性、降低未来高级 AI 风险发展了理论基础。其贡献聚焦于奖励模型的安全优化与学习。第 3 章证明，即使学习得到的奖励模型在训练数据上误差很低，由策略优化导致的分布偏移仍可能带来显著遗憾。第 4 章从理论上分析了如何基于人类反馈学习奖励模型，其中提供反馈的人类只能部分观察 AI 的行为。这会导致 AI 产生欺骗性和过度辩护行为，即便不存在额外的近似误差。在此基础上，第 5 章提出对人类关于 AI 行为的不完美信念进行建模。我们找到了这类模型能够使我们推断真实奖励函数的理论条件，并概述了如何在实践中实现这一目标。

成为VIP会员查看完整内容

相关内容

信息论

关注 0

信息论（英语：information theory）是运用概率论与数理统计的方法研究信息、信息熵、通信系统、数据传输、密码学、数据压缩等问题的应用数学学科。信息论将信息的传递作为一种统计现象来考虑，给出了估算通信信道容量的方法。信息传输和信息压缩是信息论研究中的两大领域。这两个方面又由信道编码定理、信源－信道隔离定理相互联系。

VIP会员