Block Attention Residuals (Block AttnRes) by replace fixed additive residuals with a learned softmax over earlier depth-source representations, surfacing cross-layer routing as an inspectable tensor in the forward pass. This is a tempting interpretability target: information flow normally inferred indirectly is now directly observable. We ask whether such exposure suffices for mechanistic interpretation. We probe two same-scale ($0.6$B) Block AttnRes checkpoints under identical routing-ablation interventions: a vanilla Qwen3 inference-wrapped through a deterministic recency-bias schedule that the codebase admits as a routing-equivalent loading path, and a Block AttnRes Qwen3 trained from scratch with routing as part of optimisation. The wrapped baseline's routing weights are content-independent and reproduce the schedule's analytic prediction. The trained AttnRes checkpoint instead exhibits three localised routing motifs: an embedding-source pathway through early-layer MLP, a current-state pathway through early-layer attention and MLP, and an older-history pathway through late-layer attention. Beyond this stratification, we find a sharp dissociation between average routing mass and causal importance: in both sublayers, the largest mass slice is not the largest causal contribution, and one source family carries appreciable mass with no detectable causal role under intervention. Architectural exposure of routing is therefore necessary but not sufficient for mechanistic interpretation: structured depth routing emerges only when routing has been part of training, and even then, descriptive routing summaries should be treated as candidate hypotheses to be tested by causal interventions, not as evidence of mechanism in their own right.


翻译:块注意力残差(Block Attention Residuals,简称Block AttnRes)通过将固定的加法残差替换为基于较早深度源表示的学习型softmax,在前向传播中将跨层路由暴露为可观测张量。这构成一个诱人的可解释性目标:通常需要间接推断的信息流如今可直接观测。我们探究这种暴露是否足以支撑机制性解释。我们在相同的路由消融干预条件下,对两个同等规模(0.6B参数)的Block AttnRes检查点进行探针实验:一个是通过代码库认可的确定性近因偏差调度方案进行推理封装的原始版Qwen3模型(该调度方案可作为路由等效加载路径),另一个是从头训练且将路由作为优化目标的Block AttnRes版Qwen3模型。封装基线模型的路由权重与输入内容无关,且复现了调度方案的解析预测结果。而经过训练的AttnRes检查点则展现出三种局域化路由模式:通过早期层MLP的嵌入源通路、通过早期层注意力与MLP的当前状态通路,以及通过晚期层注意力的旧历史通路。除这种分层现象外,我们发现路由平均质量与因果重要性之间存在显著分离:在两个子层中,质量最大切片并非因果贡献最大的部分,且有一类源家族在干预条件下携带显著质量却不具备可检测的因果作用。因此,路由的结构化暴露是机制性解释的必要非充分条件:只有在路由作为训练组成部分时,结构化的深度路由才会涌现;即便在此情形下,描述性的路由总结也应被视为需经因果干预检验的候选假设,而非其本身即构成机制证据。

0
下载
关闭预览

相关内容

【CVPR2023】BiFormer:基于双层路由注意力的视觉Transformer
专知会员服务
35+阅读 · 2023年3月20日
【ICML2022】基于随机注意力机制的可解释和广义图学习
专知会员服务
33+阅读 · 2022年8月7日
【NeurIPS 2021】流形上的注意力机制:规范等变的Transformer
注意力机制可解释吗?这篇ACL 2019论文说……
机器之心
11+阅读 · 2019年6月16日
神经网络可解释性最新进展
专知
18+阅读 · 2018年3月10日
深度学习中的注意力机制
CSDN大数据
24+阅读 · 2017年11月2日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
10+阅读 · 6月15日
相关VIP内容
【CVPR2023】BiFormer:基于双层路由注意力的视觉Transformer
专知会员服务
35+阅读 · 2023年3月20日
【ICML2022】基于随机注意力机制的可解释和广义图学习
专知会员服务
33+阅读 · 2022年8月7日
【NeurIPS 2021】流形上的注意力机制:规范等变的Transformer
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员