随着机器学习系统被部署于医疗保健、金融和刑事司法等关乎重大权益的领域,对于具有原则性且具备理论基础的可解释性方法的需求日益迫切。本论文为可解释机器学习的三个核心维度开发了严谨的理论基础:特征归因 (Feature Attribution)、数据归因 (Data Attribution) 以及表示学习 (Representation Learning)。 特征归因。我们通过引入“忠实性 (Faithfulness)”这一概念,将夏普里值 (Shapley values) 的公理化基础扩展到了交互作用场景。忠实性唯一地刻画了交互效应应如何被归因。基于此,我们提出了忠实夏普里交互指数 (Faithful Shapley Interaction Index, Faith-Shap),这是一种具有正式公理化保障及计算高效的加权最小二乘估计器的交互归因方法。 数据归因。我们基于表示定理 (Representer Theorem) 开发了一个统一的样本解释框架。首先,我们将广义表示框架识别为满足自然公理化性质的唯一一类归因方法,并将影响函数 (Influence Functions)、表示点选择 (Representer Point Selection) 以及 TracIn 纳为其特例。其次,我们证明了高维正则化模型的表示定理,将数据归因扩展到 $\ell_1$ 正则化和核范数 (Nuclear-norm) 正则化模型(此类模型传统 RKHS 理论并不适用),并推导出稀疏和低秩设置下相应的表示点。 表示学习。我们提出了一个特征函数提取框架,通过上下文核的谱分解视角,统一了广泛的对比式与非对比式表示学习目标。该框架可以恢复有序且可辨识的特征函数,其关联的特征值可作为原则性的特征重要性评分,从而实现具有显式准确度-效率权衡的自适应维度表示。
除了上述三项核心贡献外,本论文还展示了两项进一步的研究成果:AnoLLM,一个基于大语言模型的表格数据异常检测框架,在混合类型数据集上达到了最先进 (SOTA) 的性能;以及用于重尾统计估计的可证高效在线算法,该算法在仅假设有限二阶矩的情况下即可达到亚高斯 (Sub-Gaussian) 收敛率。综合而言,这些成果表明,对可解释性与学习算法的理论分析不仅能带来更深层的理解,也能推动实践中的改进。