【斯坦福博士论文】语言模型的机械可解释性与控制

语言模型通过自然语言与人类交互，但其输出在因果上受到基于学习权重计算出的内部表征的中介影响。因此，本文认为，值得信赖的理解与可靠的控制——这两者对于长期 AI 安全及高效的人机协作至关重要——应当在决策实际发生的表征层（Representational Level）进行。本论文提出将隐藏表征的因果干预作为一种统一的可扩展原语，同时服务于机械可解释性与行为控制： * 作为显微镜： 干预提供了超越相关性探测（Correlational Probes）和模糊归因的必要性与充分性测试。 * 作为控制按钮： 同样的干预机制可以直接引导模型行为。

首先，我通过无穷分布式对齐搜索（Boundless DAS）在大规模模型上开发了基于干预的可解释性方法，从而在指令遵循语言模型中高效发现紧凑的、人类可解释的因果变量及鲁棒对齐。其次，我展示了干预如何通过表征微调（ReFT）演变为显式的控制接口；ReFT 通过冻结基础模型并学习小型特定任务模块来编辑隐藏状态，以实现下游任务适配。第三，我致力于轻量化推理时引导（Inference-time Steering），并主张引导过程必须是可测量且可比较的：AxBench 提供了一个通用的基准测试层，揭示了简单基线往往表现出惊人的性能，而稀疏自编码器（SAEs）在引导场景下可能表现不佳。在 AxBench 的支持下，我引入了无参考偏好引导（RePS），在增强表征引导与抑制能力的同时，提升了防御提示词覆盖攻击（Prompt-based Overwrite Attacks）的鲁棒性。最后，我将该框架与**智能体（Agentic）**场景相结合，论证了因果抽象和基于干预的实验协议可以自然地从单一模型行为扩展到智能体设定。综上所述，这些研究结果表明，因果干预是解释和控制语言模型的关键，因为其运行逻辑建立在模型实际的思考基础之上：内部表征。

成为VIP会员查看完整内容

相关内容

博士论文

关注 130

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

面向大语言模型对齐的机械解释性：进展、挑战与未来方向

专知会员服务

14+阅读 · 2月14日

【牛津博士论文】机器学习模型的知识编码机制及其对模型可解释性的启示

专知会员服务

23+阅读 · 1月5日

【牛津博士论文】面向视觉、物理与语言应用的可信机器学习模型

专知会员服务

19+阅读 · 2025年10月5日

迈向透明人工智能（AI）：可解释性语言模型综述

专知会员服务

15+阅读 · 2025年9月29日