语言模型通过自然语言与人类交互,但其输出在因果上受到基于学习权重计算出的内部表征的中介影响。因此,本文认为,值得信赖的理解与可靠的控制——这两者对于长期 AI 安全及高效的人机协作至关重要——应当在决策实际发生的表征层(Representational Level)进行。 本论文提出将隐藏表征的因果干预作为一种统一的可扩展原语,同时服务于机械可解释性与行为控制: * 作为显微镜: 干预提供了超越相关性探测(Correlational Probes)和模糊归因的必要性与充分性测试。 * 作为控制按钮: 同样的干预机制可以直接引导模型行为。
首先,我通过无穷分布式对齐搜索(Boundless DAS)在大规模模型上开发了基于干预的可解释性方法,从而在指令遵循语言模型中高效发现紧凑的、人类可解释的因果变量及鲁棒对齐。其次,我展示了干预如何通过表征微调(ReFT)演变为显式的控制接口;ReFT 通过冻结基础模型并学习小型特定任务模块来编辑隐藏状态,以实现下游任务适配。第三,我致力于轻量化推理时引导(Inference-time Steering),并主张引导过程必须是可测量且可比较的:AxBench 提供了一个通用的基准测试层,揭示了简单基线往往表现出惊人的性能,而稀疏自编码器(SAEs)在引导场景下可能表现不佳。在 AxBench 的支持下,我引入了无参考偏好引导(RePS),在增强表征引导与抑制能力的同时,提升了防御提示词覆盖攻击(Prompt-based Overwrite Attacks)的鲁棒性。 最后,我将该框架与**智能体(Agentic)**场景相结合,论证了因果抽象和基于干预的实验协议可以自然地从单一模型行为扩展到智能体设定。综上所述,这些研究结果表明,因果干预是解释和控制语言模型的关键,因为其运行逻辑建立在模型实际的思考基础之上:内部表征。