On Bayesian Softmax-Gated Mixture-of-Experts Models - 专知论文

会员服务 ·

0

混合 · 贝叶斯 · 门控 · Softmax · 混合专家模型 ·

On Bayesian Softmax-Gated Mixture-of-Experts Models

翻译：论贝叶斯Softmax门控混合专家模型

Nicola Bariletto,Huy Nguyen,Nhat Ho,Alessandro Rinaldo

Mixture-of-experts models provide a flexible framework for learning complex probabilistic input-output relationships by combining multiple expert models through an input-dependent gating mechanism. These models have become increasingly prominent in modern machine learning, yet their theoretical properties in the Bayesian framework remain largely unexplored. In this paper, we study Bayesian mixture-of-experts models, focusing on the ubiquitous softmax-based gating mechanism. Specifically, we investigate the asymptotic behavior of the posterior distribution for three fundamental statistical tasks: density estimation, parameter estimation, and model selection. First, we establish posterior contraction rates for density estimation, both in the regimes with a fixed, known number of experts and with a random learnable number of experts. We then analyze parameter estimation and derive convergence guarantees based on tailored Voronoi-type losses, which account for the complex identifiability structure of mixture-of-experts models. Finally, we propose and analyze two complementary strategies for selecting the number of experts. Taken together, these results provide one of the first systematic theoretical analyses of Bayesian mixture-of-experts models with softmax gating, and yield several theory-grounded insights for practical model design.

翻译：混合专家模型通过依赖输入的软门控机制组合多个专家模型，为学习复杂的概率输入-输出关系提供了灵活框架。这类模型在现代机器学习中日益重要，但其在贝叶斯框架下的理论性质仍鲜有探索。本文研究贝叶斯混合专家模型，重点关注广泛使用的基于softmax的门控机制。具体而言，我们考察了面向密度估计、参数估计和模型选择这三项基础统计任务的后验分布渐近行为。首先，我们建立了密度估计的后验收缩率，涵盖专家数量固定已知和随机可学习两种情形。随后，我们分析了参数估计问题，并基于定制化的Voronoi型损失函数推导了收敛保证——该损失函数充分考虑了混合专家模型复杂的可辨识结构。最后，我们提出并分析了两种互补的专家数量选择策略。综合来看，这些研究成果首次系统地理论分析了采用softmax门控的贝叶斯混合专家模型，并为实际模型设计提供了若干基于理论洞见的指导原则。

0

相关内容

《面相混合威胁建模的贝叶斯网络方法》最新报告

《面相混合威胁建模的贝叶斯网络方法》最新报告

专知会员服务

25+阅读 · 2025年7月30日

混合专家模型简述

混合专家模型简述

专知会员服务

18+阅读 · 2025年5月30日

【博士论文】自适应、鲁棒且可扩展的贝叶斯滤波方法用于在线学习

【博士论文】自适应、鲁棒且可扩展的贝叶斯滤波方法用于在线学习

专知会员服务

10+阅读 · 2025年5月20日

《混合专家模型推理优化技术综述》

《混合专家模型推理优化技术综述》

专知会员服务

46+阅读 · 2024年12月21日

混合专家模型在大模型微调领域进展

混合专家模型在大模型微调领域进展

专知会员服务

48+阅读 · 2024年9月23日

融合深度学习的贝叶斯滤波综述

融合深度学习的贝叶斯滤波综述

专知会员服务

25+阅读 · 2024年9月6日

【剑桥大学博士论文】贝叶斯机器学习进展:从不确定性到决策，272页pdf

【剑桥大学博士论文】贝叶斯机器学习进展:从不确定性到决策，272页pdf

专知会员服务

83+阅读 · 2023年2月5日

什么是贝叶斯workflow？牛津大学最新《贝叶斯工作流》教程及论文，附75页Slides与视频

什么是贝叶斯workflow？牛津大学最新《贝叶斯工作流》教程及论文，附75页Slides与视频

专知会员服务

59+阅读 · 2022年9月27日

MIT最新《贝叶斯深度学习》综述论文，37页pdf

MIT最新《贝叶斯深度学习》综述论文，37页pdf

专知会员服务

55+阅读 · 2021年1月4日

【贝叶斯深度学习：一种基于模型的可解释方法】Bayesian deep learning: A model-based interpretable approach

【贝叶斯深度学习：一种基于模型的可解释方法】Bayesian deep learning: A model-based interpretable approach

专知会员服务

49+阅读 · 2020年1月1日

【ETH博士论文】贝叶斯深度学习，241页pdf

【ETH博士论文】贝叶斯深度学习，241页pdf

专知

10+阅读 · 2022年1月16日

贝叶斯与深度学习如何结合？看这份256页《贝叶斯深度学习原理》SPCOM2020硬核教程

贝叶斯与深度学习如何结合？看这份256页《贝叶斯深度学习原理》SPCOM2020硬核教程

专知

20+阅读 · 2020年7月22日

【纽约大学】贝叶斯深度学习和泛化性的概率观点，附27页PPT下载

【纽约大学】贝叶斯深度学习和泛化性的概率观点，附27页PPT下载

专知

27+阅读 · 2020年2月25日

牛津大学YARIN GAL《贝叶斯深度学习》入门教程，336页ppt

牛津大学YARIN GAL《贝叶斯深度学习》入门教程，336页ppt

专知

36+阅读 · 2019年9月1日

最新36页《贝叶斯非参学习综述》，机器学习内功修炼手册

最新36页《贝叶斯非参学习综述》，机器学习内功修炼手册

专知

25+阅读 · 2019年2月27日

深度学习贝叶斯，这是一份密集的6天速成课程（附视频与PPT）

深度学习贝叶斯，这是一份密集的6天速成课程（附视频与PPT）

数据派THU

17+阅读 · 2018年9月23日

【深度】让DL可解释？这一份66页贝叶斯深度学习教程告诉你

【深度】让DL可解释？这一份66页贝叶斯深度学习教程告诉你

GAN生成式对抗网络

15+阅读 · 2018年8月11日

让DL可解释？这一份66页贝叶斯深度学习教程告诉你

让DL可解释？这一份66页贝叶斯深度学习教程告诉你

专知

19+阅读 · 2018年8月4日

贝叶斯机器学习前沿进展

贝叶斯机器学习前沿进展

机器学习研究会

21+阅读 · 2018年1月21日

From Softmax to Sparsemax-ICML16（1）

From Softmax to Sparsemax-ICML16（1）

KingsGarden

74+阅读 · 2016年11月26日

贝叶斯网分解理论及其应用

国家自然科学基金

16+阅读 · 2017年12月31日

面向海量高维数据的可深度结合的贝叶斯网学习与推理新方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

贝叶斯柔性密度方法及其在高维金融数据中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

混合分布模型中序性质和维修策略的一些研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于贝叶斯稀疏理论的合成孔径声纳成像技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

贝叶斯博弈关于信息结构的比较静态分析及应用

国家自然科学基金

1+阅读 · 2014年12月31日

非线性混合效应模型的最优与稳健设计

国家自然科学基金

0+阅读 · 2014年12月31日

基于狄利克雷过程的潜变量模型贝叶斯半参数分析

国家自然科学基金

2+阅读 · 2014年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

MASCing: Configurable Mixture-of-Experts Behavior via Activation Steering Masks

Arxiv

0+阅读 · 4月30日

Combined shrinkage of fixed and random effects in linear mixed models using empirical Bayes

Arxiv

0+阅读 · 4月27日

Hierarchical Bayesian model updating using Dirichlet process mixtures for structural damage localization

Arxiv

0+阅读 · 4月24日

Bayesian Nonparametric Modeling for Multivariate Conditional Copula Regression with Varying Coefficients

Arxiv

0+阅读 · 4月14日

Bayesian Semiparametric Multivariate Density Regression with Coordinate-Wise Predictor Selection

Arxiv

0+阅读 · 4月9日

Flexible and Scalable Bayesian Modelling of Spatio-Temporal Hawkes Processes

Arxiv

0+阅读 · 3月30日

Mixture-Model Preference Learning for Many-Objective Bayesian Optimization

Arxiv

0+阅读 · 3月30日

Mixture-of-Experts under Finite-Rate Gating: Communication--Generalization Trade-offs

Arxiv

0+阅读 · 3月25日

Generalized Bayesian Additive Regression Trees: Theory and Software

Arxiv

0+阅读 · 3月23日

Sequential Bayesian Experimental Design for Prediction in Physical Experiments Informed by Computer Models

Arxiv

0+阅读 · 3月17日

VIP会员

文章信息

相关主题

混合专家模型

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

1+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

3+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

2+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

《面相混合威胁建模的贝叶斯网络方法》最新报告

《面相混合威胁建模的贝叶斯网络方法》最新报告

专知会员服务

25+阅读 · 2025年7月30日

混合专家模型简述

混合专家模型简述

专知会员服务

18+阅读 · 2025年5月30日

【博士论文】自适应、鲁棒且可扩展的贝叶斯滤波方法用于在线学习

【博士论文】自适应、鲁棒且可扩展的贝叶斯滤波方法用于在线学习

专知会员服务

10+阅读 · 2025年5月20日

《混合专家模型推理优化技术综述》

《混合专家模型推理优化技术综述》

专知会员服务

46+阅读 · 2024年12月21日

混合专家模型在大模型微调领域进展

混合专家模型在大模型微调领域进展

专知会员服务

48+阅读 · 2024年9月23日

融合深度学习的贝叶斯滤波综述

融合深度学习的贝叶斯滤波综述

专知会员服务

25+阅读 · 2024年9月6日

【剑桥大学博士论文】贝叶斯机器学习进展:从不确定性到决策，272页pdf

【剑桥大学博士论文】贝叶斯机器学习进展:从不确定性到决策，272页pdf

专知会员服务

83+阅读 · 2023年2月5日

什么是贝叶斯workflow？牛津大学最新《贝叶斯工作流》教程及论文，附75页Slides与视频

什么是贝叶斯workflow？牛津大学最新《贝叶斯工作流》教程及论文，附75页Slides与视频

专知会员服务

59+阅读 · 2022年9月27日

MIT最新《贝叶斯深度学习》综述论文，37页pdf

MIT最新《贝叶斯深度学习》综述论文，37页pdf

专知会员服务

55+阅读 · 2021年1月4日

【贝叶斯深度学习：一种基于模型的可解释方法】Bayesian deep learning: A model-based interpretable approach

【贝叶斯深度学习：一种基于模型的可解释方法】Bayesian deep learning: A model-based interpretable approach

专知会员服务

49+阅读 · 2020年1月1日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

【ETH博士论文】贝叶斯深度学习，241页pdf

【ETH博士论文】贝叶斯深度学习，241页pdf

专知

10+阅读 · 2022年1月16日

贝叶斯与深度学习如何结合？看这份256页《贝叶斯深度学习原理》SPCOM2020硬核教程

贝叶斯与深度学习如何结合？看这份256页《贝叶斯深度学习原理》SPCOM2020硬核教程

专知

20+阅读 · 2020年7月22日

【纽约大学】贝叶斯深度学习和泛化性的概率观点，附27页PPT下载

【纽约大学】贝叶斯深度学习和泛化性的概率观点，附27页PPT下载

专知

27+阅读 · 2020年2月25日

牛津大学YARIN GAL《贝叶斯深度学习》入门教程，336页ppt

牛津大学YARIN GAL《贝叶斯深度学习》入门教程，336页ppt

专知

36+阅读 · 2019年9月1日

最新36页《贝叶斯非参学习综述》，机器学习内功修炼手册

最新36页《贝叶斯非参学习综述》，机器学习内功修炼手册

专知

25+阅读 · 2019年2月27日

深度学习贝叶斯，这是一份密集的6天速成课程（附视频与PPT）

深度学习贝叶斯，这是一份密集的6天速成课程（附视频与PPT）

数据派THU

17+阅读 · 2018年9月23日

【深度】让DL可解释？这一份66页贝叶斯深度学习教程告诉你

【深度】让DL可解释？这一份66页贝叶斯深度学习教程告诉你

GAN生成式对抗网络

15+阅读 · 2018年8月11日

让DL可解释？这一份66页贝叶斯深度学习教程告诉你

让DL可解释？这一份66页贝叶斯深度学习教程告诉你

专知

19+阅读 · 2018年8月4日

贝叶斯机器学习前沿进展

贝叶斯机器学习前沿进展

机器学习研究会

21+阅读 · 2018年1月21日

From Softmax to Sparsemax-ICML16（1）

From Softmax to Sparsemax-ICML16（1）

KingsGarden

74+阅读 · 2016年11月26日

相关论文

MASCing: Configurable Mixture-of-Experts Behavior via Activation Steering Masks

Arxiv

0+阅读 · 4月30日

Combined shrinkage of fixed and random effects in linear mixed models using empirical Bayes

Arxiv

0+阅读 · 4月27日

Hierarchical Bayesian model updating using Dirichlet process mixtures for structural damage localization

Arxiv

0+阅读 · 4月24日

Bayesian Nonparametric Modeling for Multivariate Conditional Copula Regression with Varying Coefficients

Arxiv

0+阅读 · 4月14日

Bayesian Semiparametric Multivariate Density Regression with Coordinate-Wise Predictor Selection

Arxiv

0+阅读 · 4月9日

Flexible and Scalable Bayesian Modelling of Spatio-Temporal Hawkes Processes

Arxiv

0+阅读 · 3月30日

Mixture-Model Preference Learning for Many-Objective Bayesian Optimization

Arxiv

0+阅读 · 3月30日

Mixture-of-Experts under Finite-Rate Gating: Communication--Generalization Trade-offs

Arxiv

0+阅读 · 3月25日

Generalized Bayesian Additive Regression Trees: Theory and Software

Arxiv

0+阅读 · 3月23日

Sequential Bayesian Experimental Design for Prediction in Physical Experiments Informed by Computer Models

Arxiv

0+阅读 · 3月17日

相关基金

贝叶斯网分解理论及其应用

国家自然科学基金

16+阅读 · 2017年12月31日

面向海量高维数据的可深度结合的贝叶斯网学习与推理新方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

贝叶斯柔性密度方法及其在高维金融数据中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

混合分布模型中序性质和维修策略的一些研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于贝叶斯稀疏理论的合成孔径声纳成像技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

贝叶斯博弈关于信息结构的比较静态分析及应用

国家自然科学基金

1+阅读 · 2014年12月31日

非线性混合效应模型的最优与稳健设计

国家自然科学基金

0+阅读 · 2014年12月31日

基于狄利克雷过程的潜变量模型贝叶斯半参数分析

国家自然科学基金

2+阅读 · 2014年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员