【牛津博士论文】机器学习模型的知识编码机制及其对模型可解释性的启示

随着机器学习系统的能力日益增强——甚至在诸多领域超越了人类表现——其在理解层面既带来了严峻挑战，也蕴含了巨大机遇。这些复杂系统往往采用迥异于人类推理的逻辑运行，导致其解释过程极具难度。然而，这些系统具备揭示新知识的潜力，能够为医疗、科学及教育等关键领域的决策提供有力支撑。本论文将“可解释性”视为理解机器学习模型并从中汲取知识的关键途径。研究聚焦于两大核心目标：(1) 探究机器学习模型中知识编码的内容与机制；(2) 以人类可理解且具有实际意义的形式提取上述知识。为此，我们提出了一套包含四个阶段的结构化流水线：识别解释需求（Identifying Explanation Desiderata）、定位编码知识或概念（Locating Encoded Knowledge/Concepts）、验证概念对模型行为的影响（Verifying Influence），以及概念的人类可理解化翻译（Translating Concepts）。在该框架下，我们根据任务需求，在适配现有方法的同时开发必要的新型算法。本研究不仅关注方法论的构建，更致力于分析这些方法的行为特征及其底层假设。本论文的不同章节分别对该流水线的各阶段做出了贡献。首先，我们探究了模型的知识编码方式：分析了线性表示假设（Linear Representation Hypothesis），并考察了多语言模型中概念表示的通用性。随后，研究重心转向可解释性的用户端，探讨如何利用不确定性（Uncertainty）生成真实且明确的解释，从而提升用户友好度。最后，我们将整套流水线应用于 AlphaZero，构建了一个提取新颖概念并将其教授给国际象棋专家的框架。这一最终研究展示了可解释性如何有效弥合人工智能与人类理解之间的鸿沟。综上所述，这些研究成果深化了人类对机器学习系统的认知及学习能力，为人工智能与人类洞察力交叉领域的未来研究奠定了坚实基础。

成为VIP会员查看完整内容

相关内容

博士论文

关注 131

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【牛津博士论文】面向视觉、物理与语言应用的可信机器学习模型

专知会员服务

19+阅读 · 2025年10月5日

【牛津大学博士论文】迈向可信 AI：从局部可解释性到因果理解

专知会员服务

35+阅读 · 2025年9月16日

【CMU博士论文】基于机器学习的可信科学推理

专知会员服务

16+阅读 · 2025年5月26日

可信机器学习综述

专知会员服务

48+阅读 · 2024年7月15日