【AAAI2026】专家数量何为最优？面向混合专家模型的语义专业化优化研究 - 专知VIP

会员服务 ·

8

AAAI 2026 · 混合专家模型 · 稀疏专家模型 ·

2025 年 12 月 28 日

【AAAI2026】专家数量何为最优？面向混合专家模型的语义专业化优化研究

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

寻找能够最大化专家间语义差异化（semantic differentiation）的稀疏混合专家（SMoE）最优配置，对于充分挖掘混合专家架构的潜力至关重要。然而，现有SMoE框架要么严重依赖超参数调优，要么在调整专家池规模时忽视了专家间语义角色多样化的必要性。本文提出面向自适应语义专业化的混合专家模型（Mixture-of-Experts for Adaptive Semantic Specialization, MASS），这是一个具备语义感知能力的MoE框架，支持自适应专家扩展与动态路由。MASS引入两项关键创新：(i) 一种基于梯度的语义漂移检测器，当现有专家池无法充分捕捉数据的完整语义多样性时，该检测器会触发针对性的专家扩展；(ii) 一种自适应路由策略，能够基于令牌级路由置信度分布动态调整专家使用情况。我们首先在高度可控的合成环境中证明，MASS能够可靠地收敛至成本-性能权衡的最优平衡点，同时显著提升语义专业化能力。在语言和视觉领域真实数据集上的进一步实证结果表明，MASS持续优于多种强基线MoE模型，展现出其领域适应鲁棒性与增强的专家专业化能力。

成为VIP会员查看完整内容

15

相关内容

AAAI 2026

大语言模型驱动的最优化方法：基于生成式人工智能的建模、求解与验证

大语言模型驱动的最优化方法：基于生成式人工智能的建模、求解与验证

专知会员服务

38+阅读 · 1月25日

【AAAI2026】DEPO：面向大型语言模型智能体的双重效率偏好优化

【AAAI2026】DEPO：面向大型语言模型智能体的双重效率偏好优化

专知会员服务

14+阅读 · 2025年11月24日

【AAAI2026】TOFA：面向视觉-语言模型的免训练一次性联邦自适应方法

【AAAI2026】TOFA：面向视觉-语言模型的免训练一次性联邦自适应方法

专知会员服务

13+阅读 · 2025年11月23日

从数据中心视角出发的高效大语言模型训练综述

从数据中心视角出发的高效大语言模型训练综述

专知会员服务

23+阅读 · 2025年10月31日

【NUS博士论文】视频语义理解的因果模型

【NUS博士论文】视频语义理解的因果模型

专知会员服务

10+阅读 · 2025年3月19日

【AAAI2025】通过多模态思维链得分协作增强多机器人语义导航

【AAAI2025】通过多模态思维链得分协作增强多机器人语义导航

专知会员服务

18+阅读 · 2024年12月28日

垂直领域大模型的定制化：理论基础与关键技术

垂直领域大模型的定制化：理论基础与关键技术

专知会员服务

101+阅读 · 2024年7月7日

【NeurIPS2023】不仅仅是均匀采样：面对不平衡数据集的离线强化学习

【NeurIPS2023】不仅仅是均匀采样：面对不平衡数据集的离线强化学习

专知会员服务

32+阅读 · 2023年10月10日

【大模型最新论文】测量和改进视觉语言模型中的思维链推理

【大模型最新论文】测量和改进视觉语言模型中的思维链推理

专知会员服务

54+阅读 · 2023年9月13日

【ICML2021】面向增长数据的自适应神经架构

专知会员服务

25+阅读 · 2021年7月8日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

专知

11+阅读 · 2022年12月1日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

【ICML2020-南大周志华老师组】针对未见类未标记数据的安全深度半监督学习

【ICML2020-南大周志华老师组】针对未见类未标记数据的安全深度半监督学习

专知

46+阅读 · 2020年7月5日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

23+阅读 · 2020年7月3日

【华为诺亚新论文】基于图上下文知识融入的预训练语言模型

【华为诺亚新论文】基于图上下文知识融入的预训练语言模型

专知

23+阅读 · 2019年12月8日

论文浅尝 | 采用多层注意力机制的事件检测

论文浅尝 | 采用多层注意力机制的事件检测

开放知识图谱

24+阅读 · 2019年8月24日

论文浅尝 | 基于多模态关联数据嵌入的知识库补全

论文浅尝 | 基于多模态关联数据嵌入的知识库补全

开放知识图谱

12+阅读 · 2018年12月13日

SFFAI报告 | 常建龙：深度卷积网络中的卷积算子研究进展

SFFAI报告 | 常建龙：深度卷积网络中的卷积算子研究进展

人工智能前沿讲习班

11+阅读 · 2018年10月22日

深度学习超参数搜索实用指南

深度学习超参数搜索实用指南

云栖社区

28+阅读 · 2018年10月14日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

基于抽象语义切片和后向求精分析的静态分析警报自动确认研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于多目标优化的约束模式挖掘方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

面向多自治域环境的信息中心网络缓存策略和机制研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

大数据环境下基于GMDH的客户分类半监督集成模型研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向众核计算的数值方法协同设计--一种高效且高精度广义有限元方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

11+阅读 · 2013年12月31日

Is Your LLM Overcharging You? Tokenization, Transparency, and Incentives

Arxiv

0+阅读 · 1月29日

Mutagenesis screen to map the functions of parameters of Large Language Models

Arxiv

0+阅读 · 1月25日

Deep Research with Open-Domain Evaluation and Multi-Stage Guardrails for Safety

Arxiv

0+阅读 · 1月24日

Structure-Aware NL-to-SQL for SFC Provisioning via AST-Masking Empowered Language Models

Arxiv

0+阅读 · 1月24日

When Are Two Scores Better Than One? Investigating Ensembles of Diffusion Models

Arxiv

0+阅读 · 1月21日

Teaching LLMs to Learn Tool Trialing and Execution through Environment Interaction

Arxiv

0+阅读 · 1月19日

When Are Two Scores Better Than One? Investigating Ensembles of Diffusion Models

Arxiv

0+阅读 · 1月16日

Bipartite Mode Matching for Vision Training Set Search from a Hierarchical Data Server

Arxiv

0+阅读 · 1月14日

On-Device Large Language Models for Sequential Recommendation

Arxiv

0+阅读 · 1月14日

Towards Principled Design of Mixture-of-Experts Language Models under Memory and Inference Constraints

Arxiv

0+阅读 · 1月13日

VIP会员

相关主题

混合专家模型

稀疏专家模型

相关VIP内容

大语言模型驱动的最优化方法：基于生成式人工智能的建模、求解与验证

大语言模型驱动的最优化方法：基于生成式人工智能的建模、求解与验证

专知会员服务

38+阅读 · 1月25日

【AAAI2026】DEPO：面向大型语言模型智能体的双重效率偏好优化

【AAAI2026】DEPO：面向大型语言模型智能体的双重效率偏好优化

专知会员服务

14+阅读 · 2025年11月24日

【AAAI2026】TOFA：面向视觉-语言模型的免训练一次性联邦自适应方法

【AAAI2026】TOFA：面向视觉-语言模型的免训练一次性联邦自适应方法

专知会员服务

13+阅读 · 2025年11月23日

从数据中心视角出发的高效大语言模型训练综述

从数据中心视角出发的高效大语言模型训练综述

专知会员服务

23+阅读 · 2025年10月31日

【NUS博士论文】视频语义理解的因果模型

【NUS博士论文】视频语义理解的因果模型

专知会员服务

10+阅读 · 2025年3月19日

【AAAI2025】通过多模态思维链得分协作增强多机器人语义导航

【AAAI2025】通过多模态思维链得分协作增强多机器人语义导航

专知会员服务

18+阅读 · 2024年12月28日

垂直领域大模型的定制化：理论基础与关键技术

垂直领域大模型的定制化：理论基础与关键技术

专知会员服务

101+阅读 · 2024年7月7日

【NeurIPS2023】不仅仅是均匀采样：面对不平衡数据集的离线强化学习

【NeurIPS2023】不仅仅是均匀采样：面对不平衡数据集的离线强化学习

专知会员服务

32+阅读 · 2023年10月10日

【大模型最新论文】测量和改进视觉语言模型中的思维链推理

【大模型最新论文】测量和改进视觉语言模型中的思维链推理

专知会员服务

54+阅读 · 2023年9月13日

【ICML2021】面向增长数据的自适应神经架构

专知会员服务

25+阅读 · 2021年7月8日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

专知

11+阅读 · 2022年12月1日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

【ICML2020-南大周志华老师组】针对未见类未标记数据的安全深度半监督学习

【ICML2020-南大周志华老师组】针对未见类未标记数据的安全深度半监督学习

专知

46+阅读 · 2020年7月5日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

23+阅读 · 2020年7月3日

【华为诺亚新论文】基于图上下文知识融入的预训练语言模型

【华为诺亚新论文】基于图上下文知识融入的预训练语言模型

专知

23+阅读 · 2019年12月8日

论文浅尝 | 采用多层注意力机制的事件检测

论文浅尝 | 采用多层注意力机制的事件检测

开放知识图谱

24+阅读 · 2019年8月24日

论文浅尝 | 基于多模态关联数据嵌入的知识库补全

论文浅尝 | 基于多模态关联数据嵌入的知识库补全

开放知识图谱

12+阅读 · 2018年12月13日

SFFAI报告 | 常建龙：深度卷积网络中的卷积算子研究进展

SFFAI报告 | 常建龙：深度卷积网络中的卷积算子研究进展

人工智能前沿讲习班

11+阅读 · 2018年10月22日

深度学习超参数搜索实用指南

深度学习超参数搜索实用指南

云栖社区

28+阅读 · 2018年10月14日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

基于抽象语义切片和后向求精分析的静态分析警报自动确认研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于多目标优化的约束模式挖掘方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

面向多自治域环境的信息中心网络缓存策略和机制研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

大数据环境下基于GMDH的客户分类半监督集成模型研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向众核计算的数值方法协同设计--一种高效且高精度广义有限元方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

11+阅读 · 2013年12月31日

相关论文

Is Your LLM Overcharging You? Tokenization, Transparency, and Incentives

Arxiv

0+阅读 · 1月29日

Mutagenesis screen to map the functions of parameters of Large Language Models

Arxiv

0+阅读 · 1月25日

Deep Research with Open-Domain Evaluation and Multi-Stage Guardrails for Safety

Arxiv

0+阅读 · 1月24日

Structure-Aware NL-to-SQL for SFC Provisioning via AST-Masking Empowered Language Models

Arxiv

0+阅读 · 1月24日

When Are Two Scores Better Than One? Investigating Ensembles of Diffusion Models

Arxiv

0+阅读 · 1月21日

Teaching LLMs to Learn Tool Trialing and Execution through Environment Interaction

Arxiv

0+阅读 · 1月19日

When Are Two Scores Better Than One? Investigating Ensembles of Diffusion Models

Arxiv

0+阅读 · 1月16日

Bipartite Mode Matching for Vision Training Set Search from a Hierarchical Data Server

Arxiv

0+阅读 · 1月14日

On-Device Large Language Models for Sequential Recommendation

Arxiv

0+阅读 · 1月14日

Towards Principled Design of Mixture-of-Experts Language Models under Memory and Inference Constraints

Arxiv

0+阅读 · 1月13日

微信扫码咨询专知VIP会员