这篇两部分论文的第一部分发展了香农信息论的若干推广,目标是寻找一个尽可能宽泛的抽象框架,以便在其中证明基本结果。 第 1 章用定义在交换幂等幺半群上、且满足链式法则的一般函数取代香农熵。这导向了对 Hu 定理以及熵、互信息和交互信息的经典维恩图可视化的一种自然推广。我们将这一框架应用于 Kullback-Leibler 散度、Kolmogorov 复杂度以及其他情形。 第 2 章从抽象马尔可夫随机场对其信息图的影响出发,发展了一套抽象马尔可夫随机场理论。在一个特殊情形中,我们使用 Kullback-Leibler 图来解释热力学第二定律。 第二部分为提升 AI 系统安全性、降低未来高级 AI 风险发展了理论基础。其贡献聚焦于奖励模型的安全优化与学习。 第 3 章证明,即使学习得到的奖励模型在训练数据上误差很低,由策略优化导致的分布偏移仍可能带来显著遗憾。 第 4 章从理论上分析了如何基于人类反馈学习奖励模型,其中提供反馈的人类只能部分观察 AI 的行为。这会导致 AI 产生欺骗性和过度辩护行为,即便不存在额外的近似误差。 在此基础上,第 5 章提出对人类关于 AI 行为的不完美信念进行建模。我们找到了这类模型能够使我们推断真实奖励函数的理论条件,并概述了如何在实践中实现这一目标。