Mechanistic Interpretability (MI) aims to reverse-engineer model behaviors by identifying functional sub-networks. Yet, the scientific validity of these findings depends on their stability. In this work, we argue that circuit discovery is not a standalone task but a statistical estimation problem built upon causal mediation analysis (CMA). We uncover a fundamental instability at this base layer: exact, single-input CMA scores exhibit high intrinsic variance, implying that the causal effect of a component is a volatile random variable rather than a fixed property. We then demonstrate that circuit discovery pipelines inherit this variance and further amplify it. Fast approximation methods, such as Edge Attribution Patching and its successors, introduce additional estimation noise, while aggregating these noisy scores over datasets leads to fragile structural estimates. Consequently, small perturbations in input data or hyperparameters yield vastly different circuits. We systematically decompose these sources of variance and advocate for more rigorous MI practices, prioritizing statistical robustness and routine reporting of stability metrics.


翻译:机制可解释性(MI)旨在通过识别功能性子网络来逆向工程模型行为。然而,这些发现科学有效性取决于其稳定性。在本工作中,我们认为电路发现并非独立任务,而是建立在因果中介分析(CMA)之上的统计估计问题。我们揭示了该基础层存在一个根本性不稳定因素:精确的单输入CMA分数表现出高固有方差,这意味着组件的因果效应是波动随机变量而非固定属性。我们进而证明电路发现流程继承了这种方差并进一步放大它。快速近似方法(如Edge Attribution Patching及其后续方法)会引入额外估计噪声,而在数据集上聚合这些含噪分数会导致脆弱的结构估计。因此,输入数据或超参数的微小扰动会产生截然不同的电路。我们系统分解了这些方差来源,并倡导采用更严谨的MI实践,优先考虑统计鲁棒性及稳定性指标的常规报告。

0
下载
关闭预览

相关内容

ICML 2025 关于语言模型机械可解释性的教程
专知会员服务
18+阅读 · 2025年7月25日
多模态基础模型的机制可解释性综述
专知会员服务
43+阅读 · 2025年2月28日
【NeurIPS2022】可解释机器学习的安全性:一种最大偏差方法
专知会员服务
104+阅读 · 2021年6月23日
【机器推理可解释性】Machine Reasoning Explainability
专知会员服务
35+阅读 · 2020年9月3日
机器学习的可解释性
专知会员服务
179+阅读 · 2020年8月27日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
105+阅读 · 2019年10月9日
「强化学习可解释性」最新2022综述
专知
12+阅读 · 2022年1月16日
深度学习可解释性研究进展
专知
19+阅读 · 2020年6月26日
AI可解释性文献列表
专知
43+阅读 · 2019年10月7日
可解释的机器学习
平均机器
25+阅读 · 2019年2月25日
【学界】机器学习模型的“可解释性”到底有多重要?
GAN生成式对抗网络
12+阅读 · 2018年3月3日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
Arxiv
0+阅读 · 1月20日
VIP会员
相关VIP内容
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员