本论文由两部分组成。第一部分展示了多项旨在扩展可解释人工智能(Explainable AI, XAI)数学基础的研究工作。具体而言,本文深入探讨了归因方法、反事实说明以及基于概念的模型。
归因方法旨在识别对特定模型决策最重要的输入特征,但“重要性”的定义往往存在歧义。在第二章中,我们提出了一种新的诠释方式,将归因分数解析为一种“方向”。该方向告知用户应如何调整其特征以实现特定目标。然而,研究表明此类方法在输入层面缺乏鲁棒性:属性高度相似的用户可能会得到截然不同的解释。
在随后的第三章和第四章中,我们重点研究了反事实说明。我们论证了遵循此类说明进行操作会导致底层数据分布发生偏移。研究进一步表明,这种偏移可能导致模型准确率下降,甚至随时间推移使解释本身失效。
在第五章中,我们提出了一种新的方法与框架,用于开发样本高效的基于概念的模型。通过有效利用因果表示学习(Causal Representation Learning)中的技术,我们实现了更高的决策数据效率。
最后,在第二部分及最后一章中,我们探讨了 Bandit 凸优化问题。我们提出了一种能够解决该问题的新算法;与现有算法相比,该算法在确保易于高效实现的同时,显著提升了遗憾界(Regret bounds)。