谱流形正则化：深度MoE架构中稳定模块化路由的实现 (Spectral Manifold Regularization for Stable and Modular Routing in Deep MoE Architectures) - 专知论文

会员服务 ·

0

正则化 · SR · 流形 · 约束 · 混合 ·

Spectral Manifold Regularization for Stable and Modular Routing in Deep MoE Architectures

翻译：谱流形正则化：深度MoE架构中稳定模块化路由的实现

Ibrahim Delibasoglu

Mixture of Experts (MoE) architectures enable efficient scaling of neural networks but suffer from expert collapse, where routing converges to a few dominant experts. This reduces model capacity and causes catastrophic interference during adaptation. We propose the Spectrally-Regularized Mixture of Experts (SR-MoE), which imposes geometric constraints on the routing manifold to enforce structural modularity. Our method uses dual regularization: spectral norm constraints bound routing function Lipschitz continuity, while stable rank penalties preserve high-dimensional feature diversity in expert selection. We evaluate SR-MoE across architectural scales and dataset complexities using modular one-shot adaptation tasks. Results show that traditional linear gating fails with increasing depth (accuracy drops up to 4.72% due to expert entanglement), while SR-MoE maintains structural integrity (mean interference -0.32%). Our spectral constraints facilitate positive knowledge transfer, enabling localized expert updates without global performance decay. SR-MoE provides a general solution for building high-capacity, modular networks capable of stable lifelong learning.

翻译：混合专家（MoE）架构能够实现神经网络的高效扩展，但存在专家坍缩问题，即路由机制会收敛于少数主导专家。这降低了模型容量并在适应过程中引发灾难性干扰。我们提出谱正则化混合专家（SR-MoE），通过对路由流形施加几何约束以增强结构模块化。该方法采用双重正则化：谱范数约束限制路由函数的Lipschitz连续性，而稳定秩惩罚则保持专家选择中高维特征多样性。我们通过模块化单次适应任务在不同架构规模与数据集复杂度下评估SR-MoE。实验表明传统线性门控机制随深度增加而失效（因专家纠缠导致准确率下降达4.72%），而SR-MoE能保持结构完整性（平均干扰-0.32%）。我们的谱约束促进了正向知识迁移，支持局部专家更新而无需牺牲全局性能。SR-MoE为构建具备稳定终身学习能力的高容量模块化网络提供了通用解决方案。

0

相关内容

正则化

在数学，统计学和计算机科学中，尤其是在机器学习和逆问题中，正则化是添加信息以解决不适定问题或防止过度拟合的过程。正则化适用于不适定的优化问题中的目标函数。

稀疏混合专家模型 (SMoE) 的崛起：从算法基础、去中心化架构到垂直领域应用的综述

稀疏混合专家模型 (SMoE) 的崛起：从算法基础、去中心化架构到垂直领域应用的综述

专知会员服务

16+阅读 · 2月12日

混合专家模型简述

混合专家模型简述

专知会员服务

17+阅读 · 2025年5月30日

《混合专家模型推理优化技术综述》

《混合专家模型推理优化技术综述》

专知会员服务

45+阅读 · 2024年12月21日

【NeurIPS2024】LSH-MoE：通过局部敏感哈希实现通信高效的专家混合模型训练

【NeurIPS2024】LSH-MoE：通过局部敏感哈希实现通信高效的专家混合模型训练

专知会员服务

14+阅读 · 2024年11月14日

算法、系统和应用，三个视角全面读懂《混合专家（MoE）》

算法、系统和应用，三个视角全面读懂《混合专家（MoE）》

专知会员服务

77+阅读 · 2024年7月28日

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

专知会员服务

35+阅读 · 2024年5月26日

Jeff Dean署名《深度学习稀疏专家模型》综述论文

Jeff Dean署名《深度学习稀疏专家模型》综述论文

专知会员服务

39+阅读 · 2022年10月4日

深度学习在路由问题中的最新进展

深度学习在路由问题中的最新进展

专知会员服务

19+阅读 · 2022年3月6日

【深度学习中的隐式正则化】从矩阵和张量分解中得到的教训，141页ppt

【深度学习中的隐式正则化】从矩阵和张量分解中得到的教训，141页ppt

专知会员服务

59+阅读 · 2021年4月5日

【MIT】对抗鲁棒性的流形正则化，Manifold Regularization for Adversarial Robustness

【MIT】对抗鲁棒性的流形正则化，Manifold Regularization for Adversarial Robustness

专知会员服务

28+阅读 · 2020年3月11日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

极市平台

11+阅读 · 2021年11月18日

结合符号主义和深度学习，DeepMind提出新型端到端神经网络架构 PrediNet

结合符号主义和深度学习，DeepMind提出新型端到端神经网络架构 PrediNet

机器之心

12+阅读 · 2019年5月29日

【论文笔记和代码梳理】RippleNet：基于知识图谱的用户偏好传播

【论文笔记和代码梳理】RippleNet：基于知识图谱的用户偏好传播

专知

42+阅读 · 2019年4月9日

详解GAN的谱归一化（Spectral Normalization）

详解GAN的谱归一化（Spectral Normalization）

PaperWeekly

11+阅读 · 2019年2月13日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

专栏 | 神经网络架构搜索（NAS）综述（附AutoML资料推荐）

专栏 | 神经网络架构搜索（NAS）综述（附AutoML资料推荐）

机器之心

13+阅读 · 2018年9月1日

【论文推荐】最新八篇网络节点表示相关论文—可扩展嵌入、对抗自编码器、图划分、异构信息、显式矩阵分解、深度高斯、图、随机游走

【论文推荐】最新八篇网络节点表示相关论文—可扩展嵌入、对抗自编码器、图划分、异构信息、显式矩阵分解、深度高斯、图、随机游走

专知

14+阅读 · 2018年3月30日

三味Capsule：矩阵Capsule与EM路由

三味Capsule：矩阵Capsule与EM路由

PaperWeekly

10+阅读 · 2018年3月2日

深度学习中的五大正则化方法和七大优化策略

深度学习中的五大正则化方法和七大优化策略

全球人工智能

11+阅读 · 2017年12月25日

CS-MIMO雷达中测量矩阵的构造方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

缓存路由器存储架构及其关键技术的研究

国家自然科学基金

0+阅读 · 2015年12月31日

通信网络在不确定业务流量需求下的路由鲁棒性优化研究

国家自然科学基金

1+阅读 · 2015年12月31日

噪声不确定下基于计算智能的多跳认知无线电网络协作频谱感知优化

国家自然科学基金

0+阅读 · 2015年12月31日

MOFs纳米粒子的制备及其对不相容共混物相结构的调控与稳定作用

国家自然科学基金

0+阅读 · 2015年12月31日

基于动态匹配的高能量利用率多层堆叠结构静态随机存储器（SRAM）关键技术

国家自然科学基金

0+阅读 · 2015年12月31日

谱聚类在多个网络模块识别中的推广及在生物网络中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

高性能谱/谱元方法研究及其在多相复杂流体中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

短波认知ALE系统中基于深度学习-GP混合模型的多维谱预测方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于合作博弈的互联网域间多路径路由关键技术研究

国家自然科学基金

2+阅读 · 2014年12月31日

Breaking the MoE LLM Trilemma: Dynamic Expert Clustering with Structured Compression

Arxiv

0+阅读 · 2月5日

RASA: Routing-Aware Safety Alignment for Mixture-of-Experts Models

Arxiv

0+阅读 · 2月4日

PROBE: Co-Balancing Computation and Communication in MoE Inference via Real-Time Predictive Prefetching

Arxiv

0+阅读 · 1月31日

Mixture of Experts for Decentralized Generative AI and Reinforcement Learning in Wireless Networks: A Comprehensive Survey

Arxiv

0+阅读 · 1月28日

Advancing Expert Specialization for Better MoE

Arxiv

0+阅读 · 1月25日

Mixture-of-Experts Models in Vision: Routing, Optimization, and Generalization

Arxiv

0+阅读 · 1月21日

Understanding Multilingualism in Mixture-of-Experts LLMs: Routing Mechanism, Expert Specialization, and Layerwise Steering

Arxiv

0+阅读 · 1月20日

Accelerating Edge Inference for Distributed MoE Models with Latency-Optimized Expert Placement

Arxiv

0+阅读 · 1月15日

Deconstructing Pre-training: Knowledge Attribution Analysis in MoE and Dense Models

Arxiv

0+阅读 · 1月13日

MoTE: Mixture of Ternary Experts for Memory-efficient Large Multimodal Models

Arxiv

0+阅读 · 1月7日

VIP会员

文章信息

相关主题

相关VIP内容

稀疏混合专家模型 (SMoE) 的崛起：从算法基础、去中心化架构到垂直领域应用的综述

稀疏混合专家模型 (SMoE) 的崛起：从算法基础、去中心化架构到垂直领域应用的综述

专知会员服务

16+阅读 · 2月12日

混合专家模型简述

混合专家模型简述

专知会员服务

17+阅读 · 2025年5月30日

《混合专家模型推理优化技术综述》

《混合专家模型推理优化技术综述》

专知会员服务

45+阅读 · 2024年12月21日

【NeurIPS2024】LSH-MoE：通过局部敏感哈希实现通信高效的专家混合模型训练

【NeurIPS2024】LSH-MoE：通过局部敏感哈希实现通信高效的专家混合模型训练

专知会员服务

14+阅读 · 2024年11月14日

算法、系统和应用，三个视角全面读懂《混合专家（MoE）》

算法、系统和应用，三个视角全面读懂《混合专家（MoE）》

专知会员服务

77+阅读 · 2024年7月28日

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

专知会员服务

35+阅读 · 2024年5月26日

Jeff Dean署名《深度学习稀疏专家模型》综述论文

Jeff Dean署名《深度学习稀疏专家模型》综述论文

专知会员服务

39+阅读 · 2022年10月4日

深度学习在路由问题中的最新进展

深度学习在路由问题中的最新进展

专知会员服务

19+阅读 · 2022年3月6日

【深度学习中的隐式正则化】从矩阵和张量分解中得到的教训，141页ppt

【深度学习中的隐式正则化】从矩阵和张量分解中得到的教训，141页ppt

专知会员服务

59+阅读 · 2021年4月5日

【MIT】对抗鲁棒性的流形正则化，Manifold Regularization for Adversarial Robustness

【MIT】对抗鲁棒性的流形正则化，Manifold Regularization for Adversarial Robustness

专知会员服务

28+阅读 · 2020年3月11日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】基于自适应表征的高效视觉建模

《多域作战中融合网络、电子战与动能机动》

AI智能体时代大模型安全风险与攻防新挑战

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

相关资讯

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

极市平台

11+阅读 · 2021年11月18日

结合符号主义和深度学习，DeepMind提出新型端到端神经网络架构 PrediNet

结合符号主义和深度学习，DeepMind提出新型端到端神经网络架构 PrediNet

机器之心

12+阅读 · 2019年5月29日

【论文笔记和代码梳理】RippleNet：基于知识图谱的用户偏好传播

【论文笔记和代码梳理】RippleNet：基于知识图谱的用户偏好传播

专知

42+阅读 · 2019年4月9日

详解GAN的谱归一化（Spectral Normalization）

详解GAN的谱归一化（Spectral Normalization）

PaperWeekly

11+阅读 · 2019年2月13日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

专栏 | 神经网络架构搜索（NAS）综述（附AutoML资料推荐）

专栏 | 神经网络架构搜索（NAS）综述（附AutoML资料推荐）

机器之心

13+阅读 · 2018年9月1日

【论文推荐】最新八篇网络节点表示相关论文—可扩展嵌入、对抗自编码器、图划分、异构信息、显式矩阵分解、深度高斯、图、随机游走

【论文推荐】最新八篇网络节点表示相关论文—可扩展嵌入、对抗自编码器、图划分、异构信息、显式矩阵分解、深度高斯、图、随机游走

专知

14+阅读 · 2018年3月30日

三味Capsule：矩阵Capsule与EM路由

三味Capsule：矩阵Capsule与EM路由

PaperWeekly

10+阅读 · 2018年3月2日

深度学习中的五大正则化方法和七大优化策略

深度学习中的五大正则化方法和七大优化策略

全球人工智能

11+阅读 · 2017年12月25日

相关论文

Breaking the MoE LLM Trilemma: Dynamic Expert Clustering with Structured Compression

Arxiv

0+阅读 · 2月5日

RASA: Routing-Aware Safety Alignment for Mixture-of-Experts Models

Arxiv

0+阅读 · 2月4日

PROBE: Co-Balancing Computation and Communication in MoE Inference via Real-Time Predictive Prefetching

Arxiv

0+阅读 · 1月31日

Mixture of Experts for Decentralized Generative AI and Reinforcement Learning in Wireless Networks: A Comprehensive Survey

Arxiv

0+阅读 · 1月28日

Advancing Expert Specialization for Better MoE

Arxiv

0+阅读 · 1月25日

Mixture-of-Experts Models in Vision: Routing, Optimization, and Generalization

Arxiv

0+阅读 · 1月21日

Understanding Multilingualism in Mixture-of-Experts LLMs: Routing Mechanism, Expert Specialization, and Layerwise Steering

Arxiv

0+阅读 · 1月20日

Accelerating Edge Inference for Distributed MoE Models with Latency-Optimized Expert Placement

Arxiv

0+阅读 · 1月15日

Deconstructing Pre-training: Knowledge Attribution Analysis in MoE and Dense Models

Arxiv

0+阅读 · 1月13日

MoTE: Mixture of Ternary Experts for Memory-efficient Large Multimodal Models

Arxiv

0+阅读 · 1月7日

相关基金

CS-MIMO雷达中测量矩阵的构造方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

缓存路由器存储架构及其关键技术的研究

国家自然科学基金

0+阅读 · 2015年12月31日

通信网络在不确定业务流量需求下的路由鲁棒性优化研究

国家自然科学基金

1+阅读 · 2015年12月31日

噪声不确定下基于计算智能的多跳认知无线电网络协作频谱感知优化

国家自然科学基金

0+阅读 · 2015年12月31日

MOFs纳米粒子的制备及其对不相容共混物相结构的调控与稳定作用

国家自然科学基金

0+阅读 · 2015年12月31日

基于动态匹配的高能量利用率多层堆叠结构静态随机存储器（SRAM）关键技术

国家自然科学基金

0+阅读 · 2015年12月31日

谱聚类在多个网络模块识别中的推广及在生物网络中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

高性能谱/谱元方法研究及其在多相复杂流体中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

短波认知ALE系统中基于深度学习-GP混合模型的多维谱预测方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于合作博弈的互联网域间多路径路由关键技术研究

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员