语言模型通过自然语言与人类交互,但其输出在因果上受到基于学习权重计算出的内部表征的中介影响。因此,本文认为,值得信赖的理解可靠的控制——这两者对于长期 AI 安全及高效的人机协作至关重要——应当在决策实际发生的表征层(Representational Level)进行。 本论文提出将隐藏表征的因果干预作为一种统一的可扩展原语,同时服务于机械可解释性与行为控制: * 作为显微镜: 干预提供了超越相关性探测(Correlational Probes)和模糊归因的必要性与充分性测试。 * 作为控制按钮: 同样的干预机制可以直接引导模型行为。

首先,我通过无穷分布式对齐搜索(Boundless DAS)在大规模模型上开发了基于干预的可解释性方法,从而在指令遵循语言模型中高效发现紧凑的、人类可解释的因果变量及鲁棒对齐。其次,我展示了干预如何通过表征微调(ReFT)演变为显式的控制接口;ReFT 通过冻结基础模型并学习小型特定任务模块来编辑隐藏状态,以实现下游任务适配。第三,我致力于轻量化推理时引导(Inference-time Steering),并主张引导过程必须是可测量且可比较的:AxBench 提供了一个通用的基准测试层,揭示了简单基线往往表现出惊人的性能,而稀疏自编码器(SAEs)在引导场景下可能表现不佳。在 AxBench 的支持下,我引入了无参考偏好引导(RePS),在增强表征引导与抑制能力的同时,提升了防御提示词覆盖攻击(Prompt-based Overwrite Attacks)的鲁棒性。 最后,我将该框架与**智能体(Agentic)**场景相结合,论证了因果抽象和基于干预的实验协议可以自然地从单一模型行为扩展到智能体设定。综上所述,这些研究结果表明,因果干预是解释和控制语言模型的关键,因为其运行逻辑建立在模型实际的思考基础之上:内部表征

成为VIP会员查看完整内容
10

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
迈向透明人工智能(AI):可解释性语言模型综述
专知会员服务
15+阅读 · 2025年9月29日
ICML 2025 关于语言模型机械可解释性的教程
专知会员服务
18+阅读 · 2025年7月25日
【斯坦福大学Xiang Lisa Li博士论文】控制语言模型
专知会员服务
22+阅读 · 2025年6月11日
机器学习的可解释性
专知会员服务
179+阅读 · 2020年8月27日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
深度学习可解释性研究进展
专知
19+阅读 · 2020年6月26日
【综述】医疗可解释人工智能综述论文
专知
33+阅读 · 2019年7月18日
干货 | 可解释的机器学习
AI科技评论
20+阅读 · 2019年7月3日
医疗中的自动机器学习和可解释性
专知
24+阅读 · 2019年4月1日
【学界】机器学习模型的“可解释性”到底有多重要?
GAN生成式对抗网络
12+阅读 · 2018年3月3日
机器学习模型的“可解释性”到底有多重要?
中国科学院自动化研究所
20+阅读 · 2018年3月1日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
最新内容
2026“人工智能+”行业发展蓝皮书(附下载)
专知会员服务
7+阅读 · 今天12:11
《强化学习数学基础》
专知会员服务
4+阅读 · 今天12:07
“Maven计划”的发展演变之“Maven智能系统”应用
《无人机革命:来自俄乌战场的启示》(报告)
专知会员服务
9+阅读 · 今天6:48
《实现联合作战能力所需的技术》58页报告
专知会员服务
5+阅读 · 今天6:30
以色列运用人工智能优化空袭警报系统
专知会员服务
5+阅读 · 今天6:20
以色列在多条战线部署AI智能体
专知会员服务
7+阅读 · 今天6:12
相关VIP内容
迈向透明人工智能(AI):可解释性语言模型综述
专知会员服务
15+阅读 · 2025年9月29日
ICML 2025 关于语言模型机械可解释性的教程
专知会员服务
18+阅读 · 2025年7月25日
【斯坦福大学Xiang Lisa Li博士论文】控制语言模型
专知会员服务
22+阅读 · 2025年6月11日
机器学习的可解释性
专知会员服务
179+阅读 · 2020年8月27日
相关资讯
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
深度学习可解释性研究进展
专知
19+阅读 · 2020年6月26日
【综述】医疗可解释人工智能综述论文
专知
33+阅读 · 2019年7月18日
干货 | 可解释的机器学习
AI科技评论
20+阅读 · 2019年7月3日
医疗中的自动机器学习和可解释性
专知
24+阅读 · 2019年4月1日
【学界】机器学习模型的“可解释性”到底有多重要?
GAN生成式对抗网络
12+阅读 · 2018年3月3日
机器学习模型的“可解释性”到底有多重要?
中国科学院自动化研究所
20+阅读 · 2018年3月1日
相关基金
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员