寻找能够最大化专家间语义差异化(semantic differentiation)的稀疏混合专家(SMoE)最优配置,对于充分挖掘混合专家架构的潜力至关重要。然而,现有SMoE框架要么严重依赖超参数调优,要么在调整专家池规模时忽视了专家间语义角色多样化的必要性。本文提出面向自适应语义专业化的混合专家模型(Mixture-of-Experts for Adaptive Semantic Specialization, MASS),这是一个具备语义感知能力的MoE框架,支持自适应专家扩展与动态路由。MASS引入两项关键创新:(i) 一种基于梯度的语义漂移检测器,当现有专家池无法充分捕捉数据的完整语义多样性时,该检测器会触发针对性的专家扩展;(ii) 一种自适应路由策略,能够基于令牌级路由置信度分布动态调整专家使用情况。我们首先在高度可控的合成环境中证明,MASS能够可靠地收敛至成本-性能权衡的最优平衡点,同时显著提升语义专业化能力。在语言和视觉领域真实数据集上的进一步实证结果表明,MASS持续优于多种强基线MoE模型,展现出其领域适应鲁棒性与增强的专家专业化能力。

成为VIP会员查看完整内容
12

相关内容

从数据中心视角出发的高效大语言模型训练综述
专知会员服务
21+阅读 · 2025年10月31日
【NUS博士论文】视频语义理解的因果模型
专知会员服务
10+阅读 · 2025年3月19日
论文浅尝 | 采用多层注意力机制的事件检测
开放知识图谱
24+阅读 · 2019年8月24日
论文浅尝 | 基于多模态关联数据嵌入的知识库补全
开放知识图谱
12+阅读 · 2018年12月13日
深度学习超参数搜索实用指南
云栖社区
28+阅读 · 2018年10月14日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
Arxiv
0+阅读 · 2025年12月31日
VIP会员
相关VIP内容
从数据中心视角出发的高效大语言模型训练综述
专知会员服务
21+阅读 · 2025年10月31日
【NUS博士论文】视频语义理解的因果模型
专知会员服务
10+阅读 · 2025年3月19日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
微信扫码咨询专知VIP会员