Mixture of experts (MoE) architectures have become a cornerstone for scaling up and are a key component in most large language models such as GPT-OSS, DeepSeek-V3, Llama-4, and Gemini-2.5. However, systematic research on MoE remains severely constrained by the prohibitive computational costs of training and evaluation, restricting large-scale studies accessible to most researchers. We introduce LibMoE, a unified framework for reproducible, efficient, and extensible MoE research that supports both pretraining and sparse-upcycling regimes. Beyond unified implementations, the framework provides transparent analytical tools for probing routing and expert dynamics. Leveraging this foundation, we conduct a comprehensive analysis along three dimensions: (i) routing dynamics, covering expert selection patterns, routing stability and optimality, and how routing entropy reveals task specialization and expert diversity; (ii) the effect of lightweight initialization on load balancing, demonstrating how subtle changes in router initialization shape early expert utilization; and (iii) training regime differences, revealing how sparse upcycling and full pretraining exhibit distinct routing patterns and stability profiles. By lowering the barrier to entry and standardizing evaluation, along with our comprehensive analysis, LibMoE broadens access to MoE research and establishes a reliable benchmark to guide future innovations. GitHub: \href{https://github.com/Fsoft-AIC/LibMoE}{https://github.com/Fsoft-AIC/LibMoE}.


翻译:专家混合模型架构已成为模型扩展的基石,并且是大多数大语言模型(如GPT-OSS、DeepSeek-V3、Llama-4和Gemini-2.5)的关键组成部分。然而,对MoE的系统性研究仍然严重受限于训练和评估所需的巨大计算成本,这使得大多数研究人员难以开展大规模研究。我们推出了LibMoE,这是一个用于可复现、高效且可扩展的MoE研究的统一框架,同时支持预训练和稀疏升级训练模式。除了统一的实现之外,该框架还提供了透明的分析工具,用于探究路由机制和专家动态。基于此基础,我们沿着三个维度进行了全面分析:(i)路由动态,涵盖专家选择模式、路由稳定性与最优性,以及路由熵如何揭示任务专业化和专家多样性;(ii)轻量级初始化对负载均衡的影响,展示了路由器初始化的细微变化如何塑造早期的专家利用模式;(iii)训练模式的差异,揭示了稀疏升级训练与完整预训练如何展现出不同的路由模式和稳定性特征。通过降低研究门槛、标准化评估,并结合我们的全面分析,LibMoE拓宽了MoE研究的可及性,并建立了一个可靠的基准来指导未来的创新。GitHub:\href{https://github.com/Fsoft-AIC/LibMoE}{https://github.com/Fsoft-AIC/LibMoE}。

0
下载
关闭预览

相关内容

专门化大型语言模型综述
专知会员服务
35+阅读 · 2025年8月28日
混合专家模型简述
专知会员服务
17+阅读 · 2025年5月30日
《混合专家模型推理优化技术综述》
专知会员服务
45+阅读 · 2024年12月21日
混合专家模型在大模型微调领域进展
专知会员服务
48+阅读 · 2024年9月23日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月17日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员