Mixture-of-Experts (MoE) architectures have emerged as a powerful paradigm for scaling neural networks while maintaining computational efficiency. However, standard MoE implementations rely on two rigid design assumptions: (1) fixed Top-K routing where exactly K experts are activated per token, and (2) uniform expert allocation across all layers. This paper introduces DynaMoE, a novel MoE framework that relaxes both constraints through dynamic token-level expert activation and layer-wise adaptive capacity allocation. DynaMoE introduces a principled routing mechanism where the number of active experts per token varies based on input complexity. Concurrently, the framework implements six distinct scheduling strategies for distributing expert capacity across network depth, including descending, ascending, pyramid, and wave patterns. We theoretically analyze the expressivity gains of dynamic routing and derive bounds on computational efficiency. Through extensive experiments on MNIST, Fashion-MNIST, CIFAR-10 (image classification), and Recycling-the-Web (language modeling) across multiple model scales, we demonstrate that DynaMoE achieves superior parameter efficiency compared to static baselines. Our key finding is that optimal expert schedules are task- and scale-dependent: descending schedules (concentrating capacity in early layers) outperform uniform baselines on image classification. For language modeling, optimal schedules vary by model size, descending for Tiny, ascending for Small, and uniform for Medium. Furthermore, dynamic routing reduces gradient variance during training, leading to improved convergence stability. DynaMoE establishes a new framework for adaptive computation in neural networks, providing principled guidance for MoE architecture design.


翻译:混合专家(MoE)架构已成为在保持计算效率的同时扩展神经网络的有力范式。然而,标准MoE实现依赖于两个僵化的设计假设:(1)固定的Top-K路由,即每个令牌恰好激活K个专家;(2)所有层间统一的专家分配。本文提出了DynaMoE,一种新颖的MoE框架,它通过动态令牌级专家激活和层间自适应容量分配来放宽这两个约束。DynaMoE引入了一种原则性的路由机制,其中每个令牌激活的专家数量根据输入复杂度而变化。同时,该框架实现了六种不同的调度策略,用于在网络深度上分配专家容量,包括递减、递增、金字塔和波浪模式。我们从理论上分析了动态路由的表达能力增益,并推导了计算效率的界限。通过在多个模型规模上对MNIST、Fashion-MNIST、CIFAR-10(图像分类)和Recycling-the-Web(语言建模)进行广泛实验,我们证明DynaMoE相比静态基线实现了更优的参数效率。我们的关键发现是,最优的专家调度方案依赖于具体任务和模型规模:在图像分类任务上,递减调度(将容量集中在早期层)优于统一基线。对于语言建模,最优调度方案随模型大小而变化,Tiny模型适用递减调度,Small模型适用递增调度,Medium模型适用统一调度。此外,动态路由减少了训练期间的梯度方差,从而提高了收敛稳定性。DynaMoE为神经网络中的自适应计算建立了一个新框架,为MoE架构设计提供了原则性指导。

0
下载
关闭预览

相关内容

混合专家模型简述
专知会员服务
18+阅读 · 2025年5月30日
《混合专家模型推理优化技术综述》
专知会员服务
46+阅读 · 2024年12月21日
Jeff Dean署名《深度学习稀疏专家模型》综述论文
专知会员服务
39+阅读 · 2022年10月4日
【GNN】MPNN:消息传递神经网络
深度学习自然语言处理
17+阅读 · 2020年4月11日
谷歌EfficientNet缩放模型,PyTorch实现登热榜
机器学习算法与Python学习
11+阅读 · 2019年6月4日
脉冲神经网络,下一代机器学习?
专知
13+阅读 · 2018年1月13日
一文读懂深度适配网络(DAN)
数据派THU
29+阅读 · 2017年7月14日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月17日
VIP会员
最新内容
ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
1+阅读 · 今天15:53
Agent Harness综述:大模型智能体执行器工程全景
专知会员服务
1+阅读 · 今天15:04
马赛克防御与分布式指挥:伊朗的回击(中文版)
《基于理论的威慑效能评估》
专知会员服务
5+阅读 · 今天14:48
ICML2026 | 重新思考顺序知识编辑中的正则化
专知会员服务
8+阅读 · 5月27日
《用于兵力发展选项优先排序的成本效益模型》
专知会员服务
11+阅读 · 5月27日
AutoResearch AI综述:迈向AI驱动的科学发现自动化
专知会员服务
10+阅读 · 5月26日
《Palantir边缘人工智能》手册
专知会员服务
25+阅读 · 5月26日
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员