人工智能(AI)系统最强大的力量并非源于取代人类,而在于与人类协同。然而,在医疗和法律等专家知识丰富的关键领域,基于深度神经网络(DNN)的强力 AI 系统通常运行在一种僵化的假设下:即一旦训练结束,模型便无法再接收任何反馈。这种短视的范式限制了模型在关键时刻寻求或受益于外部引导的能力。相比之下,人类在决策时会常规性地相互咨询、寻求帮助并即时整合新证据。本论文旨在探讨:我们应如何设计 DNN,使其能够利用部署阶段可获取的人类反馈? 可解释人工智能(XAI)领域的研究已在设计支持“人机回环”反馈的 DNN 方面迈出了第一步。这主要通过所谓的“概念干预”实现,即专家通过直接操作模型的潜空间,向模型传递高层级概念的存在与否。这些干预手段为在高风险环境下部署保持透明且具交互性的模型提供了一种可行路径。然而,现有可干预模型的有效性依赖于四个不切实际的假设:(1) 训练阶段具备概念标注;(2) 这些概念能够完整描述下游目标任务;(3) 所有概念干预的价值均等;(4) 测试样本保持在训练分布之内。 本论文证明,上述假设在现实场景中并不成立,且当这些假设被违背时,干预将失效。为解决这一问题,我们提出了一系列方法,旨在提升概念干预在现实部署环境下的鲁棒性。首先,通过发现能够解释特定表格任务的小型特征子集上的简单函数,我们展示了如何在缺乏训练概念标签的表格领域执行干预。其次,我们证明了当训练中缺失关键概念时,干预可能会产生反作用,并提出了“概念嵌入模型”(CEMs)作为解决方案。CEM 学习高维且具可解释性的概念表征,即使在概念集不完备的情况下也能保持模型的可干预性。第三,我们放宽了“所有概念价值均等”的假设,提出了一种干预感知(intervention-aware)的训练范式,教授 CEM 优先向专家请求特定概念,从而降低预算受限场景下的求助成本。最后,我们将该框架扩展至处理分布外(OOD)测试样本,提出将概念嵌入分解为样本特定和概念特定组件,以保持分布偏移下的干预鲁棒性。 总体而言,本论文提出的方法论为设计准确、可解释且能在专家提供测试时反馈时显著提升准确率的 DNN 提供了一种规范化方案。