Horseshoe Mixtures-of-Experts (HS-MoE) - 专知论文

会员服务 ·

0

混合 · 混合模型 · 稀疏 · 自适应 · 稀疏性 ·

Horseshoe Mixtures-of-Experts (HS-MoE)

翻译：马蹄铁专家混合模型（HS-MoE）

Nick Polson,Vadim Sokolov

Horseshoe mixtures-of-experts (HS-MoE) models provide a Bayesian framework for sparse expert selection in mixture-of-experts architectures. We combine the horseshoe prior's adaptive global-local shrinkage with input-dependent gating, yielding data-adaptive sparsity in expert usage. Our primary methodological contribution is a particle learning algorithm for sequential inference, in which the filter is propagated forward in time while tracking only sufficient statistics. We also discuss how HS-MoE relates to modern mixture-of-experts layers in large language models, which are deployed under extreme sparsity constraints (e.g., activating a small number of experts per token out of a large pool).

翻译：马蹄铁专家混合模型（HS-MoE）为专家混合架构中的稀疏专家选择提供了一个贝叶斯框架。我们将马蹄铁先验的自适应全局-局部收缩特性与输入相关的门控机制相结合，从而在专家使用中实现了数据自适应的稀疏性。我们的主要方法学贡献是一种用于序列推断的粒子学习算法，其中滤波器随时间向前传播，同时仅跟踪充分统计量。我们还讨论了HS-MoE与大型语言模型中现代专家混合层的关系，后者在极端稀疏性约束下部署（例如，从大型专家池中为每个令牌激活少量专家）。

0

相关内容

稀疏混合专家模型 (SMoE) 的崛起：从算法基础、去中心化架构到垂直领域应用的综述

稀疏混合专家模型 (SMoE) 的崛起：从算法基础、去中心化架构到垂直领域应用的综述

专知会员服务

17+阅读 · 2月12日

【AAAI2026】专家数量何为最优？面向混合专家模型的语义专业化优化研究

【AAAI2026】专家数量何为最优？面向混合专家模型的语义专业化优化研究

专知会员服务

15+阅读 · 2025年12月28日

混合专家模型简述

混合专家模型简述

专知会员服务

18+阅读 · 2025年5月30日

重新思考代理混合模型：混合不同的大型语言模型是否有益？

重新思考代理混合模型：混合不同的大型语言模型是否有益？

专知会员服务

20+阅读 · 2025年2月9日

《混合专家模型推理优化技术综述》

《混合专家模型推理优化技术综述》

专知会员服务

46+阅读 · 2024年12月21日

【NeurIPS2024】LSH-MoE：通过局部敏感哈希实现通信高效的专家混合模型训练

【NeurIPS2024】LSH-MoE：通过局部敏感哈希实现通信高效的专家混合模型训练

专知会员服务

14+阅读 · 2024年11月14日

混合专家模型在大模型微调领域进展

混合专家模型在大模型微调领域进展

专知会员服务

48+阅读 · 2024年9月23日

算法、系统和应用，三个视角全面读懂《混合专家（MoE）》

算法、系统和应用，三个视角全面读懂《混合专家（MoE）》

专知会员服务

77+阅读 · 2024年7月28日

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

专知会员服务

35+阅读 · 2024年5月26日

Jeff Dean署名《深度学习稀疏专家模型》综述论文

Jeff Dean署名《深度学习稀疏专家模型》综述论文

专知会员服务

39+阅读 · 2022年10月4日

稀疏大模型简述：从MoE、Sparse Attention到GLaM

稀疏大模型简述：从MoE、Sparse Attention到GLaM

夕小瑶的卖萌屋

14+阅读 · 2022年3月22日

再发力！Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版，超越Hinton的SimCLR，刷新SOTA准确率

再发力！Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版，超越Hinton的SimCLR，刷新SOTA准确率

专知

48+阅读 · 2020年3月11日

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

雷锋网

10+阅读 · 2019年6月27日

学界 | 超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

学界 | 超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

AI科技评论

18+阅读 · 2019年6月25日

一大批中文（BERT等）预训练模型等你认领！

一大批中文（BERT等）预训练模型等你认领！

PaperWeekly

15+阅读 · 2019年6月25日

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

机器之心

11+阅读 · 2019年6月3日

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

专知

15+阅读 · 2019年5月17日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

【泡泡图灵智库】HSfM: 混合运动恢复结构（CVPR）

【泡泡图灵智库】HSfM: 混合运动恢复结构（CVPR）

泡泡机器人SLAM

11+阅读 · 2018年12月13日

概率图模型体系：HMM、MEMM、CRF

概率图模型体系：HMM、MEMM、CRF

机器学习研究会

30+阅读 · 2018年2月10日

小规模量子混成系统的验证

国家自然科学基金

0+阅读 · 2015年12月31日

一类离散Hindmarsh-Rose模型的分支延拓

国家自然科学基金

0+阅读 · 2015年12月31日

铁-稀土单分子磁体的设计合成及其磁构关系研究

国家自然科学基金

0+阅读 · 2015年12月31日

MOFs纳米粒子的制备及其对不相容共混物相结构的调控与稳定作用

国家自然科学基金

0+阅读 · 2015年12月31日

金属有机框架（MOFs）材料的构筑、纳米化及光学性能研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于贝叶斯稀疏理论的合成孔径声纳成像技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

含不确定性区间参数的刚柔耦合多体系统动力学建模与分析

国家自然科学基金

0+阅读 · 2014年12月31日

自旋轨道耦合BEC系统的混沌特性研究

国家自然科学基金

0+阅读 · 2014年12月31日

非线性混合效应模型的最优与稳健设计

国家自然科学基金

0+阅读 · 2014年12月31日

Multilingual Routing in Mixture-of-Experts

Arxiv

0+阅读 · 2月17日

Mixture-of-Experts under Finite-Rate Gating: Communication--Generalization Trade-offs

Arxiv

0+阅读 · 2月16日

Hyperparameter Transfer with Mixture-of-Expert Layers

Arxiv

0+阅读 · 2月12日

DirMoE: Dirichlet-routed Mixture of Experts

Arxiv

0+阅读 · 2月9日

Fast Model Selection and Stable Optimization for Softmax-Gated Multinomial-Logistic Mixture of Experts Models

Arxiv

0+阅读 · 2月8日

SERE: Similarity-based Expert Re-routing for Efficient Batch Decoding in MoE Models

Arxiv

0+阅读 · 2月7日

OmniMoE: An Efficient MoE by Orchestrating Atomic Experts at Scale

Arxiv

0+阅读 · 2月5日

MoGU: Mixture-of-Gaussians with Uncertainty-based Gating for Time Series Forecasting

Arxiv

0+阅读 · 2月3日

MoHETS: Long-term Time Series Forecasting with Mixture-of-Heterogeneous-Experts

Arxiv

0+阅读 · 1月29日

Advancing Expert Specialization for Better MoE

Arxiv

0+阅读 · 1月25日

VIP会员

文章信息

相关主题

最新内容

美国当前高超音速导弹发展概述

美国当前高超音速导弹发展概述

专知会员服务

4+阅读 · 4月19日

《高超音速武器：一项再度兴起的技术》120页slides

《高超音速武器：一项再度兴起的技术》120页slides

专知会员服务

8+阅读 · 4月19日

无人机蜂群建模与仿真方法

无人机蜂群建模与仿真方法

专知会员服务

5+阅读 · 4月19日

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

专知会员服务

3+阅读 · 4月19日

《量化反无人机系统对抗无人机蜂群效能的创新方法》

《量化反无人机系统对抗无人机蜂群效能的创新方法》

专知会员服务

5+阅读 · 4月19日

澳大利亚发布《国防战略（2026年）》

澳大利亚发布《国防战略（2026年）》

专知会员服务

2+阅读 · 4月19日

【CMU博士论文】迈向基于基础先验的 4D 感知研究

【CMU博士论文】迈向基于基础先验的 4D 感知研究

专知会员服务

2+阅读 · 4月19日

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

专知会员服务

3+阅读 · 4月19日

全球高超音速武器最新发展趋势

全球高超音速武器最新发展趋势

专知会员服务

2+阅读 · 4月19日

《利用大语言模型增强多域作战兵棋推演》（报告）

《利用大语言模型增强多域作战兵棋推演》（报告）

专知会员服务

12+阅读 · 4月18日

《增强准备状态与战备水平：态势感知与数据驱动决策》报告

《增强准备状态与战备水平：态势感知与数据驱动决策》报告

专知会员服务

11+阅读 · 4月18日

中文版《可靠定位、导航与授时 (APNT)：美军相关研发项目》报告

中文版《可靠定位、导航与授时 (APNT)：美军相关研发项目》报告

专知会员服务

9+阅读 · 4月18日

《自主武器系统人类-AI指挥控制中的动态管理》（2026最新450页）

《自主武器系统人类-AI指挥控制中的动态管理》（2026最新450页）

专知会员服务

17+阅读 · 4月18日

美智库《实现空军战斗出动架次生成能力：对目标、差距、障碍与解决方案的审视》（报告）

美智库《实现空军战斗出动架次生成能力：对目标、差距、障碍与解决方案的审视》（报告）

专知会员服务

8+阅读 · 4月18日

《大规模作战行动中争夺情报优势：情报与电子战营-下一代角色探析》（报告）

《大规模作战行动中争夺情报优势：情报与电子战营-下一代角色探析》（报告）

专知会员服务

10+阅读 · 4月18日

相关VIP内容

稀疏混合专家模型 (SMoE) 的崛起：从算法基础、去中心化架构到垂直领域应用的综述

稀疏混合专家模型 (SMoE) 的崛起：从算法基础、去中心化架构到垂直领域应用的综述

专知会员服务

17+阅读 · 2月12日

【AAAI2026】专家数量何为最优？面向混合专家模型的语义专业化优化研究

【AAAI2026】专家数量何为最优？面向混合专家模型的语义专业化优化研究

专知会员服务

15+阅读 · 2025年12月28日

混合专家模型简述

混合专家模型简述

专知会员服务

18+阅读 · 2025年5月30日

重新思考代理混合模型：混合不同的大型语言模型是否有益？

重新思考代理混合模型：混合不同的大型语言模型是否有益？

专知会员服务

20+阅读 · 2025年2月9日

《混合专家模型推理优化技术综述》

《混合专家模型推理优化技术综述》

专知会员服务

46+阅读 · 2024年12月21日

【NeurIPS2024】LSH-MoE：通过局部敏感哈希实现通信高效的专家混合模型训练

【NeurIPS2024】LSH-MoE：通过局部敏感哈希实现通信高效的专家混合模型训练

专知会员服务

14+阅读 · 2024年11月14日

混合专家模型在大模型微调领域进展

混合专家模型在大模型微调领域进展

专知会员服务

48+阅读 · 2024年9月23日

算法、系统和应用，三个视角全面读懂《混合专家（MoE）》

算法、系统和应用，三个视角全面读懂《混合专家（MoE）》

专知会员服务

77+阅读 · 2024年7月28日

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

专知会员服务

35+阅读 · 2024年5月26日

Jeff Dean署名《深度学习稀疏专家模型》综述论文

Jeff Dean署名《深度学习稀疏专家模型》综述论文

专知会员服务

39+阅读 · 2022年10月4日

热门VIP内容

开通专知VIP会员享更多权益服务

《高超音速武器：一项再度兴起的技术》120页slides

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

美国当前高超音速导弹发展概述

无人机蜂群建模与仿真方法

相关资讯

稀疏大模型简述：从MoE、Sparse Attention到GLaM

稀疏大模型简述：从MoE、Sparse Attention到GLaM

夕小瑶的卖萌屋

14+阅读 · 2022年3月22日

再发力！Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版，超越Hinton的SimCLR，刷新SOTA准确率

再发力！Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版，超越Hinton的SimCLR，刷新SOTA准确率

专知

48+阅读 · 2020年3月11日

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

雷锋网

10+阅读 · 2019年6月27日

学界 | 超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

学界 | 超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

AI科技评论

18+阅读 · 2019年6月25日

一大批中文（BERT等）预训练模型等你认领！

一大批中文（BERT等）预训练模型等你认领！

PaperWeekly

15+阅读 · 2019年6月25日

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

机器之心

11+阅读 · 2019年6月3日

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

专知

15+阅读 · 2019年5月17日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

【泡泡图灵智库】HSfM: 混合运动恢复结构（CVPR）

【泡泡图灵智库】HSfM: 混合运动恢复结构（CVPR）

泡泡机器人SLAM

11+阅读 · 2018年12月13日

概率图模型体系：HMM、MEMM、CRF

概率图模型体系：HMM、MEMM、CRF

机器学习研究会

30+阅读 · 2018年2月10日

相关论文

Multilingual Routing in Mixture-of-Experts

Arxiv

0+阅读 · 2月17日

Mixture-of-Experts under Finite-Rate Gating: Communication--Generalization Trade-offs

Arxiv

0+阅读 · 2月16日

Hyperparameter Transfer with Mixture-of-Expert Layers

Arxiv

0+阅读 · 2月12日

DirMoE: Dirichlet-routed Mixture of Experts

Arxiv

0+阅读 · 2月9日

Fast Model Selection and Stable Optimization for Softmax-Gated Multinomial-Logistic Mixture of Experts Models

Arxiv

0+阅读 · 2月8日

SERE: Similarity-based Expert Re-routing for Efficient Batch Decoding in MoE Models

Arxiv

0+阅读 · 2月7日

OmniMoE: An Efficient MoE by Orchestrating Atomic Experts at Scale

Arxiv

0+阅读 · 2月5日

MoGU: Mixture-of-Gaussians with Uncertainty-based Gating for Time Series Forecasting

Arxiv

0+阅读 · 2月3日

MoHETS: Long-term Time Series Forecasting with Mixture-of-Heterogeneous-Experts

Arxiv

0+阅读 · 1月29日

Advancing Expert Specialization for Better MoE

Arxiv

0+阅读 · 1月25日

相关基金

小规模量子混成系统的验证

国家自然科学基金

0+阅读 · 2015年12月31日

一类离散Hindmarsh-Rose模型的分支延拓

国家自然科学基金

0+阅读 · 2015年12月31日

铁-稀土单分子磁体的设计合成及其磁构关系研究

国家自然科学基金

0+阅读 · 2015年12月31日

MOFs纳米粒子的制备及其对不相容共混物相结构的调控与稳定作用

国家自然科学基金

0+阅读 · 2015年12月31日

金属有机框架（MOFs）材料的构筑、纳米化及光学性能研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于贝叶斯稀疏理论的合成孔径声纳成像技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

含不确定性区间参数的刚柔耦合多体系统动力学建模与分析

国家自然科学基金

0+阅读 · 2014年12月31日

自旋轨道耦合BEC系统的混沌特性研究

国家自然科学基金

0+阅读 · 2014年12月31日

非线性混合效应模型的最优与稳健设计

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员