MobileMoE: Scaling On-Device Mixture of Experts - 专知论文

会员服务 ·

0

混合 · 内存 · 语言模型 · 最优 · 混合专家模型 ·

MobileMoE: Scaling On-Device Mixture of Experts

翻译：MobileMoE：扩展端侧混合专家模型

Yanbei Chen,Hanxian Huang,Ernie Chang,Jacob Szwejbka,Digant Desai,Zechun Liu,Vikas Chandra,Raghuraman Krishnamoorthi

Mixture-of-Experts (MoE) has become the de facto architecture for hundred-billion-parameter language models, yet its advantages at sub-billion scales for on-device deployment remain largely unexplored. To close this gap, we present MobileMoE, a family of on-device MoE language models with sub-billion active parameters (0.3-0.9B active and 1.3-5.3B total) that establish a new Pareto frontier for on-device LLMs. We first formulate an on-device MoE scaling law that jointly optimizes MoE architecture under mobile memory and compute constraints, identifying an on-device sweet spot - moderate sparsity with fine-grained and shared experts - that is simultaneously memory and compute-optimal. Building on the derived architectures, we train MobileMoE with a four-stage recipe covering pre-training, mid-training, instruction fine-tuning, and quantization-aware training, all on open-source datasets. Across 14 benchmarks, MobileMoE matches or exceeds leading on-device dense LLMs with 2-4$\times$ fewer inference FLOPs, and matches or surpasses the state-of-the-art MoE OLMoE-1B-7B with up to 60% fewer parameters. To bridge the last mile to mobile deployment, we provide the first efficient MoE inference on commodity smartphones with comprehensive on-device profiling. At comparable INT4 weight memory, MobileMoE-S delivers $1.8$-$3.8\times$ faster prefill and $2.2$-$3.4\times$ faster decode than the dense baseline MobileLLM-Pro.

翻译：混合专家模型（MoE）已成为千亿参数语言模型的事实标准架构，但它在十亿参数以下规模用于端侧部署的优势仍鲜有探索。为弥补这一空白，我们提出MobileMoE——一系列活跃参数低于十亿（活跃参数0.3-0.9B，总参数1.3-5.3B）的端侧MoE语言模型，为端侧大语言模型建立了新的帕累托前沿。我们首先推导出端侧MoE缩放定律，在移动内存与计算约束下联合优化MoE架构，并确定了端侧"甜区"——兼具内存与计算最优性的中等稀疏度与细粒度共享专家。基于所推架构，我们采用四阶段训练方案训练MobileMoE，涵盖预训练、中期训练、指令微调及量化感知训练，所有阶段均基于开源数据集完成。在14个基准测试中，MobileMoE以2-4倍更少的推理FLOPs达到或超越领先的端侧密集大语言模型，并以最多60%的参数压缩量达到或超越当前最优MoE模型OLMoE-1B-7B。为打通移动部署的最后一公里，我们首次在商用智能手机上实现了高效MoE推理，并提供了全面的端侧性能剖析。在可比的INT4权重内存占用下，MobileMoE-S相较密集基线模型MobileLLM-Pro实现1.8-3.8倍更快的预填充速度与2.2-3.4倍更快的解码速度。

0

相关内容

稀疏混合专家模型 (SMoE) 的崛起：从算法基础、去中心化架构到垂直领域应用的综述

稀疏混合专家模型 (SMoE) 的崛起：从算法基础、去中心化架构到垂直领域应用的综述

专知会员服务

17+阅读 · 2月12日

综述：面向移动端大语言模型的隐私与安全

综述：面向移动端大语言模型的隐私与安全

专知会员服务

19+阅读 · 2025年9月7日

混合专家模型简述

混合专家模型简述

专知会员服务

18+阅读 · 2025年5月30日

《混合专家模型推理优化技术综述》

《混合专家模型推理优化技术综述》

专知会员服务

46+阅读 · 2024年12月21日

【NeurIPS2024】LSH-MoE：通过局部敏感哈希实现通信高效的专家混合模型训练

【NeurIPS2024】LSH-MoE：通过局部敏感哈希实现通信高效的专家混合模型训练

专知会员服务

14+阅读 · 2024年11月14日

混合专家模型在大模型微调领域进展

混合专家模型在大模型微调领域进展

专知会员服务

48+阅读 · 2024年9月23日

算法、系统和应用，三个视角全面读懂《混合专家（MoE）》

算法、系统和应用，三个视角全面读懂《混合专家（MoE）》

专知会员服务

77+阅读 · 2024年7月28日

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

专知会员服务

35+阅读 · 2024年5月26日

科研动态| 一句指令帮你操作手机，最新多模态手机助手Mobile-Agent来了！

科研动态| 一句指令帮你操作手机，最新多模态手机助手Mobile-Agent来了！

专知会员服务

35+阅读 · 2024年2月4日

Jeff Dean署名《深度学习稀疏专家模型》综述论文

Jeff Dean署名《深度学习稀疏专家模型》综述论文

专知会员服务

39+阅读 · 2022年10月4日

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

机器之心

15+阅读 · 2023年4月12日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

19+阅读 · 2020年8月31日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

谷歌NIPS论文Transformer模型解读：只要Attention就够了

谷歌NIPS论文Transformer模型解读：只要Attention就够了

AI100

14+阅读 · 2019年9月9日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

深度 | 级联MobileNet-V2实现人脸关键点检测（附训练源码）

深度 | 级联MobileNet-V2实现人脸关键点检测（附训练源码）

机器之心

15+阅读 · 2018年3月11日

【论文推荐】最新六篇用户建模精选论文推荐—深度多模态融合、跨平台、时序性RNN、ATRank、嵌入因子分解、异构信息网络

【论文推荐】最新六篇用户建模精选论文推荐—深度多模态融合、跨平台、时序性RNN、ATRank、嵌入因子分解、异构信息网络

专知

10+阅读 · 2018年3月10日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

基于混合多址的物与物通信资源分配技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于概率计算的大规模MIMO检测方法

国家自然科学基金

1+阅读 · 2015年12月31日

导频污染下大规模分布式MIMO无线传输理论与技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向5G的大规模MIMO可靠传输技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

Massive MIMO 系统中接收端低复杂度检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

大规模MIMO检测的理论性能分析和算法设计

国家自然科学基金

0+阅读 · 2015年12月31日

宽带大规模MIMO参数化信道估计与联合信号检测研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向全双工的新型MIMO系统传输优化

国家自然科学基金

0+阅读 · 2015年12月31日

短波认知ALE系统中基于深度学习-GP混合模型的多维谱预测方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

移动互联网服务及隐私保护的理论与关键技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

SoftMoE: Soft Differentiable Routing for Mixture-of-Experts in LLMs

Arxiv

0+阅读 · 6月16日

Tying the Loop -- Tied Expert Layers in Mixture-of-Experts Language Models

Arxiv

0+阅读 · 6月15日

A theoretical model for task routing in mixture-of-expert transformers

Arxiv

0+阅读 · 6月12日

ReMoE: Boosting Expert Reuse through Router Fine-Tuning in Memory-Constrained MoE LLM Inference

Arxiv

0+阅读 · 5月26日

ZipMoE: Efficient On-Device MoE Serving via Lossless Compression and Cache-Affinity Scheduling

Arxiv

0+阅读 · 5月22日

DECO: Sparse Mixture-of-Experts with Dense-Comparable Performance on End-Side Devices

Arxiv

0+阅读 · 5月20日

DriveMoE: Mixture-of-Experts for Vision-Language-Action Model in End-to-End Autonomous Driving

Arxiv

0+阅读 · 5月18日

SpaceMoE: Towards Orbital General Intelligence with Distributed Mixture-of-Experts Inference

Arxiv

0+阅读 · 5月16日

DECO: Sparse Mixture-of-Experts with Dense-Comparable Performance on End-Side Devices

Arxiv

0+阅读 · 5月11日

MoE-Hub: Taming Software Complexity for Seamless MoE Overlap with Hardware-Accelerated Communication on Multi-GPU Systems

Arxiv

0+阅读 · 5月7日

VIP会员

文章信息

相关主题

混合专家模型

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

1+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

3+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

2+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

稀疏混合专家模型 (SMoE) 的崛起：从算法基础、去中心化架构到垂直领域应用的综述

稀疏混合专家模型 (SMoE) 的崛起：从算法基础、去中心化架构到垂直领域应用的综述

专知会员服务

17+阅读 · 2月12日

综述：面向移动端大语言模型的隐私与安全

综述：面向移动端大语言模型的隐私与安全

专知会员服务

19+阅读 · 2025年9月7日

混合专家模型简述

混合专家模型简述

专知会员服务

18+阅读 · 2025年5月30日

《混合专家模型推理优化技术综述》

《混合专家模型推理优化技术综述》

专知会员服务

46+阅读 · 2024年12月21日

【NeurIPS2024】LSH-MoE：通过局部敏感哈希实现通信高效的专家混合模型训练

【NeurIPS2024】LSH-MoE：通过局部敏感哈希实现通信高效的专家混合模型训练

专知会员服务

14+阅读 · 2024年11月14日

混合专家模型在大模型微调领域进展

混合专家模型在大模型微调领域进展

专知会员服务

48+阅读 · 2024年9月23日

算法、系统和应用，三个视角全面读懂《混合专家（MoE）》

算法、系统和应用，三个视角全面读懂《混合专家（MoE）》

专知会员服务

77+阅读 · 2024年7月28日

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

专知会员服务

35+阅读 · 2024年5月26日

科研动态| 一句指令帮你操作手机，最新多模态手机助手Mobile-Agent来了！

科研动态| 一句指令帮你操作手机，最新多模态手机助手Mobile-Agent来了！

专知会员服务

35+阅读 · 2024年2月4日

Jeff Dean署名《深度学习稀疏专家模型》综述论文

Jeff Dean署名《深度学习稀疏专家模型》综述论文

专知会员服务

39+阅读 · 2022年10月4日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

机器之心

15+阅读 · 2023年4月12日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

19+阅读 · 2020年8月31日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

谷歌NIPS论文Transformer模型解读：只要Attention就够了

谷歌NIPS论文Transformer模型解读：只要Attention就够了

AI100

14+阅读 · 2019年9月9日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

深度 | 级联MobileNet-V2实现人脸关键点检测（附训练源码）

深度 | 级联MobileNet-V2实现人脸关键点检测（附训练源码）

机器之心

15+阅读 · 2018年3月11日

【论文推荐】最新六篇用户建模精选论文推荐—深度多模态融合、跨平台、时序性RNN、ATRank、嵌入因子分解、异构信息网络

【论文推荐】最新六篇用户建模精选论文推荐—深度多模态融合、跨平台、时序性RNN、ATRank、嵌入因子分解、异构信息网络

专知

10+阅读 · 2018年3月10日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

SoftMoE: Soft Differentiable Routing for Mixture-of-Experts in LLMs

Arxiv

0+阅读 · 6月16日

Tying the Loop -- Tied Expert Layers in Mixture-of-Experts Language Models

Arxiv

0+阅读 · 6月15日

A theoretical model for task routing in mixture-of-expert transformers

Arxiv

0+阅读 · 6月12日

ReMoE: Boosting Expert Reuse through Router Fine-Tuning in Memory-Constrained MoE LLM Inference

Arxiv

0+阅读 · 5月26日

ZipMoE: Efficient On-Device MoE Serving via Lossless Compression and Cache-Affinity Scheduling

Arxiv

0+阅读 · 5月22日

DECO: Sparse Mixture-of-Experts with Dense-Comparable Performance on End-Side Devices

Arxiv

0+阅读 · 5月20日

DriveMoE: Mixture-of-Experts for Vision-Language-Action Model in End-to-End Autonomous Driving

Arxiv

0+阅读 · 5月18日

SpaceMoE: Towards Orbital General Intelligence with Distributed Mixture-of-Experts Inference

Arxiv

0+阅读 · 5月16日

DECO: Sparse Mixture-of-Experts with Dense-Comparable Performance on End-Side Devices

Arxiv

0+阅读 · 5月11日

MoE-Hub: Taming Software Complexity for Seamless MoE Overlap with Hardware-Accelerated Communication on Multi-GPU Systems

Arxiv

0+阅读 · 5月7日

相关基金

基于混合多址的物与物通信资源分配技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于概率计算的大规模MIMO检测方法

国家自然科学基金

1+阅读 · 2015年12月31日

导频污染下大规模分布式MIMO无线传输理论与技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向5G的大规模MIMO可靠传输技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

Massive MIMO 系统中接收端低复杂度检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

大规模MIMO检测的理论性能分析和算法设计

国家自然科学基金

0+阅读 · 2015年12月31日

宽带大规模MIMO参数化信道估计与联合信号检测研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向全双工的新型MIMO系统传输优化

国家自然科学基金

0+阅读 · 2015年12月31日

短波认知ALE系统中基于深度学习-GP混合模型的多维谱预测方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

移动互联网服务及隐私保护的理论与关键技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员