Multi-expert systems, where multiple Large Language Models (LLMs) collaborate to solve complex tasks, are increasingly adopted for high-performance reasoning and generation. However, the orchestration policies governing expert interaction and sequencing remain largely opaque. We introduce INFORM, an interpretability analysis that treats orchestration as an explicit, analyzable computation, enabling the decoupling of expert interaction structure, execution order, and causal attribution. We use INFORM to evaluate an orchestrator on GSM8K, HumanEval, and MMLU using a homogeneous consortium of ten instruction-tuned experts drawn from LLaMA-3.1 8B, Qwen-3 8B, and DeepSeek-R1 8B, with controlled decoding-temperature variation, and a secondary heterogeneous consortium spanning 1B-7B parameter models. Across tasks, routing dominance is a poor proxy for functional necessity. We reveal a divergence between relational importance, captured by routing mass and interaction topology, and intrinsic importance, measured via gradient-based causal attribution: frequently selected experts often act as interaction hubs with limited causal influence, while sparsely routed experts can be structurally critical. Orchestration behaviors emerge asynchronously, with expert centralization preceding stable routing confidence and expert ordering remaining non-deterministic. Targeted ablations show that masking intrinsically important experts induces disproportionate collapse in interaction structure compared to masking frequent peers, confirming that INFORM exposes causal and structural dependencies beyond accuracy metrics alone.


翻译:多专家系统通过多个大型语言模型(LLM)协作解决复杂任务,正日益广泛地应用于高性能推理与生成领域。然而,支配专家交互与执行顺序的协同策略在很大程度上仍不透明。本文提出INFORM——一种将协同过程视为显式可分析计算的解释性分析方法,实现了专家交互结构、执行顺序与因果归因的解耦。我们运用INFORM方法,分别在GSM8K、HumanEval和MMLU基准上评估协同器性能:实验采用由LLaMA-3.1 8B、Qwen-3 8B及DeepSeek-R1 8B构成的十位指令微调专家组成的同质联盟(通过解码温度受控调节),以及参数规模跨1B-7B的异质专家联盟。跨任务实验表明,路由主导性并不能有效反映功能必要性。我们揭示了关系重要性(通过路由权重与交互拓扑捕获)与内在重要性(基于梯度的因果归因度量)之间的背离:频繁被选中的专家常作为交互枢纽却仅具有限因果影响力,而稀疏路由的专家可能在结构上具有关键作用。协同行为呈现异步涌现特征,专家中心化进程先于稳定路由置信度形成,且专家排序保持非确定性。定向消融实验表明,屏蔽内在重要性专家相较于屏蔽高频交互专家会引发交互结构的失衡性崩塌,这证实了INFORM方法能够揭示超越准确率指标的因果与结构依赖关系。

0
下载
关闭预览

相关内容

【博士论文】《自然语言处理中的因果推理》
专知会员服务
22+阅读 · 2025年4月25日
TransMLA:多头潜在注意力(MLA)即为所需
专知会员服务
23+阅读 · 2025年2月13日
数据与多模态大型语言模型的协同作用综述
专知会员服务
58+阅读 · 2024年7月13日
因果性与大型语言模型:一个新的前沿,51页ppt
专知会员服务
79+阅读 · 2023年9月17日
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2月17日
VIP会员
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员