Interpretability methods routinely use population-level summary statistics over observed model behaviour to license claims about the effects of targeted interventions on specific computations; in Pearl's terms, they treat rung-1 associational evidence as if it supported rung-2 interventional conclusions, a move whose validity is rarely tested. We examine one concrete instance: the use of routing statistics in Mixture-of-Experts (MoE) pruning, where utilization rates, activation norms, and routing weight distributions are treated as predictors of which experts can be removed without functional cost. A token-level interventional audit across three high-redundancy MoE architectures (OLMoE-1B-7B-0924, Qwen1.5-MoE-A2.7B, DeepSeek-V2-Lite) finds no observational metric predicts causal expert importance after multiple-comparison correction in any model, with effect sizes below Cohen's $d = 0.17$ across all 60 metric-layer combinations. A per-token routing weight control rules out insufficient power, recovering a single Bonferroni-significant signal at OLMoE's final MoE layer ($d = +0.231$, $p = 0.0013$). Existing pruning methods succeed in this regime not by identifying dispensable experts but because early-layer redundancy renders most selection criteria interchangeable. Our results provide an explicit counterexample to the common inferential step from population-level observational summaries to token-level interventional claims about expert importance, and illustrate how interventional audits can calibrate the evidential standards for interpretability claims.


翻译:可解释性方法通常利用观察到的模型行为在总体层面的统计摘要来推断特定干预对具体计算的影响;用珀尔的术语来说,它们将第一层级的关联性证据视为支持第二层级干预性结论的依据,而这种推断的有效性很少受到检验。我们考察了一个具体案例:混合专家(MoE)剪枝中路由统计量的使用——利用率、激活范数和路由权重分布被当作预测因子,用于判断哪些专家可以在不损失功能的情况下被移除。通过对三种高冗余MoE架构(OLMoE-1B-7B-0924、Qwen1.5-MoE-A2.7B、DeepSeek-V2-Lite)进行词元级干预性审计,我们发现经过多重比较校正后,任何观察性指标均无法在所有模型中预测专家的因果重要性,且在所有60个指标-层组合中效应量均低于Cohen's $d = 0.17$。通过逐词元路由权重控制排除了统计功效不足的可能,仅在OLMoE的最后一个MoE层恢复了一个显著的Bonferroni信号($d = +0.231$,$p = 0.0013$)。现有剪枝方法在此场景下之所以成功,并非因为识别出了可移除的专家,而是由于早期层的冗余性使得大多数选择标准可以互换。我们的研究结果为从总体级观察性摘要到词元级专家重要性干预性推论这一常见推断步骤提供了明确的反例,并展示了干预性审计如何能够校准可解释性主张的证据标准。

0
下载
关闭预览

相关内容

混合专家模型简述
专知会员服务
18+阅读 · 2025年5月30日
《混合专家模型推理优化技术综述》
专知会员服务
46+阅读 · 2024年12月21日
复杂处理下的因果推断:综述
专知会员服务
34+阅读 · 2024年7月22日
因果推断,Causal Inference:The Mixtape
专知会员服务
110+阅读 · 2021年8月27日
因果关联学习,Causal Relational Learning
专知会员服务
185+阅读 · 2020年4月21日
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
基于深度元学习的因果推断新方法
图与推荐
12+阅读 · 2020年7月21日
论文浅尝 | Interaction Embeddings for Prediction and Explanation
开放知识图谱
11+阅读 · 2019年2月1日
相关性≠因果:概率图模型和do-calculus
论智
31+阅读 · 2018年10月29日
【学界】机器学习模型的“可解释性”到底有多重要?
GAN生成式对抗网络
12+阅读 · 2018年3月3日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
国家自然科学基金
23+阅读 · 2008年12月31日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
8+阅读 · 6月15日
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
国家自然科学基金
23+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员