Most interpretability work focuses on layer- or neuron-level mechanisms in Transformers, leaving expert-level behavior in MoE LLMs underexplored. Motivated by functional specialization in the human brain, we analyze expert activation by distinguishing domain and driver experts. In this work, we study expert activation in MoE models across three public domains and address two key questions: (1) which experts are activated, and whether certain expert types exhibit consistent activation patterns; and (2) how tokens are associated with and trigger the activation of specific experts. To answer these questions, we introduce entropy-based and causal-effect metrics to assess whether an expert is strongly favored for a particular domain, and how strongly expert activation contributes causally to the model's output, thus identify domain and driver experts, respectively. Furthermore, we explore how individual tokens are associated with the activation of specific experts. Our analysis reveals that (1) Among the activated experts, some show clear domain preferences, while others exert strong causal influence on model performance, underscoring their decisive roles. (2) tokens occurring earlier in a sentence are more likely to trigger the driver experts, and (3) adjusting the weights of domain and driver experts leads to significant performance gains across all three models and domains. These findings shed light on the internal mechanisms of MoE models and enhance their interpretability.


翻译:大多数可解释性研究聚焦于Transformer的层级或神经元级机制,而MoE大语言模型中的专家级行为尚未得到充分探索。受人类大脑功能特化的启发,我们通过区分领域专家与驱动专家来分析专家激活机制。本研究在三个公共领域中考察MoE模型的专家激活,并解决两个关键问题:(1) 哪些专家被激活,特定类型的专家是否呈现一致的激活模式;(2) 词元如何与特定专家关联并触发其激活。为回答这些问题,我们引入基于熵的度量与因果效应指标,分别用于评估专家是否对特定领域具有强烈偏好,以及专家激活对模型输出的因果贡献强度,从而识别领域专家与驱动专家。进一步地,我们探究了单个词元如何与特定专家的激活相关联。分析表明:(1) 在激活的专家中,部分专家呈现明确的领域偏好,另一些则对模型性能产生强因果影响,凸显其决定性作用;(2) 句中较早出现的词元更可能触发驱动专家;(3) 调整领域专家与驱动专家的权重可在所有三个模型和领域中带来显著的性能提升。这些发现揭示了MoE模型的内部机制,并增强了其可解释性。

0
下载
关闭预览

相关内容

混合专家模型简述
专知会员服务
17+阅读 · 2025年5月30日
《混合专家模型推理优化技术综述》
专知会员服务
45+阅读 · 2024年12月21日
《大语言模型进展》69页ppt,谷歌研究科学家Jason Wei
专知会员服务
86+阅读 · 2022年10月29日
白话attention综述(上)
AINLP
12+阅读 · 2019年12月14日
激活函数还是有一点意思的!
计算机视觉战队
12+阅读 · 2019年6月28日
干货 | 深入理解深度学习中的激活函数
计算机视觉life
16+阅读 · 2019年1月29日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Arxiv
0+阅读 · 2月17日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员