这篇两部分论文的第一部分发展了香农信息论的若干推广,目标是寻找一个尽可能宽泛的抽象框架,以便在其中证明基本结果。 第 1 章用定义在交换幂等幺半群上、且满足链式法则的一般函数取代香农熵。这导向了对 Hu 定理以及熵、互信息和交互信息的经典维恩图可视化的一种自然推广。我们将这一框架应用于 Kullback-Leibler 散度、Kolmogorov 复杂度以及其他情形。 第 2 章从抽象马尔可夫随机场对其信息图的影响出发,发展了一套抽象马尔可夫随机场理论。在一个特殊情形中,我们使用 Kullback-Leibler 图来解释热力学第二定律。 第二部分为提升 AI 系统安全性、降低未来高级 AI 风险发展了理论基础。其贡献聚焦于奖励模型的安全优化与学习。 第 3 章证明,即使学习得到的奖励模型在训练数据上误差很低,由策略优化导致的分布偏移仍可能带来显著遗憾。 第 4 章从理论上分析了如何基于人类反馈学习奖励模型,其中提供反馈的人类只能部分观察 AI 的行为。这会导致 AI 产生欺骗性和过度辩护行为,即便不存在额外的近似误差。 在此基础上,第 5 章提出对人类关于 AI 行为的不完美信念进行建模。我们找到了这类模型能够使我们推断真实奖励函数的理论条件,并概述了如何在实践中实现这一目标。

成为VIP会员查看完整内容
1

相关内容

信息论(英语:information theory)是运用概率论与数理统计的方法研究信息、信息熵、通信系统、数据传输、密码学、数据压缩等问题的应用数学学科。 信息论将信息的传递作为一种统计现象来考虑,给出了估算通信信道容量的方法。信息传输和信息压缩是信息论研究中的两大领域。这两个方面又由信道编码定理、信源-信道隔离定理相互联系。
VIP会员
最新内容
《通往人工通用智能之路上的均衡策略》
专知会员服务
1+阅读 · 今天14:22
《人工智能与军事整合:现状与未来风险》报告
专知会员服务
2+阅读 · 今天14:12
《Palantir的科技生态系统》
专知会员服务
14+阅读 · 6月2日
《反无人机系统传感器融合》90页报告
专知会员服务
16+阅读 · 6月2日
运用人工智能与卫星通信驱散“战争迷雾”
专知会员服务
8+阅读 · 6月2日
微信扫码咨询专知VIP会员