随着机器学习系统的能力日益增强——甚至在诸多领域超越了人类表现——其在理解层面既带来了严峻挑战,也蕴含了巨大机遇。这些复杂系统往往采用迥异于人类推理的逻辑运行,导致其解释过程极具难度。然而,这些系统具备揭示新知识的潜力,能够为医疗、科学及教育等关键领域的决策提供有力支撑。 本论文将“可解释性”视为理解机器学习模型并从中汲取知识的关键途径。研究聚焦于两大核心目标:(1) 探究机器学习模型中知识编码的内容与机制;(2) 以人类可理解且具有实际意义的形式提取上述知识。为此,我们提出了一套包含四个阶段的结构化流水线:识别解释需求(Identifying Explanation Desiderata)、定位编码知识或概念(Locating Encoded Knowledge/Concepts)、验证概念对模型行为的影响(Verifying Influence),以及概念的人类可理解化翻译(Translating Concepts)。在该框架下,我们根据任务需求,在适配现有方法的同时开发必要的新型算法。本研究不仅关注方法论的构建,更致力于分析这些方法的行为特征及其底层假设。 本论文的不同章节分别对该流水线的各阶段做出了贡献。首先,我们探究了模型的知识编码方式:分析了线性表示假设(Linear Representation Hypothesis),并考察了多语言模型中概念表示的通用性。随后,研究重心转向可解释性的用户端,探讨如何利用不确定性(Uncertainty)生成真实且明确的解释,从而提升用户友好度。最后,我们将整套流水线应用于 AlphaZero,构建了一个提取新颖概念并将其教授给国际象棋专家的框架。这一最终研究展示了可解释性如何有效弥合人工智能与人类理解之间的鸿沟。 综上所述,这些研究成果深化了人类对机器学习系统的认知及学习能力,为人工智能与人类洞察力交叉领域的未来研究奠定了坚实基础。