Mamba Neural Operator: Who Wins? Transformers vs. State-Space Models for PDEs - 专知论文

会员服务 ·

0

神经算子 · 状态空间 · 结构 · Mamba · 空间模型 ·

Mamba Neural Operator: Who Wins? Transformers vs. State-Space Models for PDEs

翻译：Mamba神经算子：谁主沉浮？Transformer与状态空间模型在偏微分方程求解中的较量

Chun-Wun Cheng,Jiahao Huang,Yi Zhang,Guang Yang,Carola-Bibiane Schönlieb,Angelica I. Aviles-Rivero

from arxiv, Accepted in Journal of Computational Physics 2025

Partial differential equations (PDEs) are widely used to model complex physical systems, but solving them efficiently remains a significant challenge. Recently, Transformers have emerged as the preferred architecture for PDEs due to their ability to capture intricate dependencies. However, they struggle with representing continuous dynamics and long-range interactions. To overcome these limitations, we introduce the Mamba Neural Operator (MNO), a novel framework that enhances neural operator-based techniques for solving PDEs. MNO establishes a formal theoretical connection between structured state-space models (SSMs) and neural operators, offering a unified structure that can adapt to diverse architectures, including Transformer-based models. By leveraging the structured design of SSMs, MNO captures long-range dependencies and continuous dynamics more effectively than traditional Transformers. Through extensive analysis, we show that MNO significantly boosts the expressive power and accuracy of neural operators, making it not just a complement but a superior framework for PDE-related tasks, bridging the gap between efficient representation and accurate solution approximation. Our code is available on https://github.com/Math-ML-X/Mamba-Neural-Operator

翻译：偏微分方程被广泛用于建模复杂物理系统，但如何高效求解仍是一个重大挑战。近年来，Transformer凭借其捕捉复杂依赖关系的能力，已成为求解偏微分方程的首选架构。然而，它们在表示连续动力学和长程相互作用方面存在不足。为克服这些限制，我们提出了Mamba神经算子——一种增强基于神经算子的偏微分方程求解技术的新颖框架。MNO在结构化状态空间模型与神经算子之间建立了形式化的理论联系，提供了一个能适配包括Transformer模型在内的多种架构的统一结构。通过利用SSM的结构化设计，MNO比传统Transformer更有效地捕捉长程依赖和连续动力学。大量分析表明，MNO显著提升了神经算子的表达能力和精度，使其不仅是偏微分方程相关任务的补充框架，更是一种优越的解决方案，弥合了高效表示与精确求解近似之间的鸿沟。我们的代码公开于https://github.com/Math-ML-X/Mamba-Neural-Operator

0

相关内容

神经算子

【CMU博士论文】用于物理模拟的高效深度学习模型

【CMU博士论文】用于物理模拟的高效深度学习模型

专知会员服务

31+阅读 · 2025年8月24日

《图Mamba》最新综述，探索图学习中的状态空间模型

《图Mamba》最新综述，探索图学习中的状态空间模型

专知会员服务

31+阅读 · 2024年12月26日

《视觉中的Mamba：技术与应用》全面综述

《视觉中的Mamba：技术与应用》全面综述

专知会员服务

37+阅读 · 2024年10月7日

Mamba 架构在医学图像分析中的全面综述：分类、分割、重建及其他应用

Mamba 架构在医学图像分析中的全面综述：分类、分割、重建及其他应用

专知会员服务

29+阅读 · 2024年10月4日

非Transformer不可？最新《状态空间模型（SSM）》综述

非Transformer不可？最新《状态空间模型（SSM）》综述

专知会员服务

75+阅读 · 2024年4月16日

【干货书】科学计算中的经典数值方法，153页pdf

【干货书】科学计算中的经典数值方法，153页pdf

专知会员服务

56+阅读 · 2023年10月22日

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

专知会员服务

61+阅读 · 2023年7月16日

牛津大学发布首篇《Transformer多模态学习》综述论文，23页pdf涵盖310篇文献全面阐述MMT的理论与应用

牛津大学发布首篇《Transformer多模态学习》综述论文，23页pdf涵盖310篇文献全面阐述MMT的理论与应用

专知会员服务

124+阅读 · 2022年6月15日

【干货书】《Transformers 机器学习:深度探究》，Transformers for Machine Learning A Deep Dive

【干货书】《Transformers 机器学习:深度探究》，Transformers for Machine Learning A Deep Dive

专知会员服务

473+阅读 · 2022年4月21日

【Google】最新《高效Transformers》综述大全，Efficient Transformers: A Survey

【Google】最新《高效Transformers》综述大全，Efficient Transformers: A Survey

专知会员服务

113+阅读 · 2020年9月17日

300+篇文献！一文详解基于Transformer的多模态学习最新进展

300+篇文献！一文详解基于Transformer的多模态学习最新进展

PaperWeekly

13+阅读 · 2022年7月1日

【干货书】《Transformers 机器学习:深度探究》，284页pdf

【干货书】《Transformers 机器学习:深度探究》，284页pdf

专知

72+阅读 · 2022年4月21日

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

专知

36+阅读 · 2022年2月7日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

专知

20+阅读 · 2020年3月1日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

神经网络常微分方程 (Neural ODEs) 解析

神经网络常微分方程 (Neural ODEs) 解析

AI科技评论

42+阅读 · 2019年8月9日

基于关系网络的视觉建模：有望替代卷积神经网络

基于关系网络的视觉建模：有望替代卷积神经网络

微软研究院AI头条

10+阅读 · 2019年7月12日

多图带你读懂 Transformers 的工作原理

多图带你读懂 Transformers 的工作原理

AI研习社

10+阅读 · 2019年3月18日

超全总结：神经网络加速之量化模型 | 附带代码

超全总结：神经网络加速之量化模型 | 附带代码

PaperWeekly

12+阅读 · 2018年6月1日

脉冲时滞微分方程的周期解及数值计算问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

正倒向随机微分方程与两类衍生模型的统计推断及金融中的应用

国家自然科学基金

2+阅读 · 2015年12月31日

基于算子空间的微分流形及非线性偏微分方程的研究

国家自然科学基金

0+阅读 · 2015年12月31日

平面N+M体问题和空间N+3体问题周期解的变分方法

国家自然科学基金

0+阅读 · 2015年12月31日

具有时滞效应的微分向量优化问题的理论、算法及应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

与微分算子相关的加权Hardy型空间实变理论及应用

国家自然科学基金

0+阅读 · 2014年12月31日

强非线性偏微分方程基于梯度重构的新型算法

国家自然科学基金

0+阅读 · 2014年12月31日

分数阶偏微分方程与近场动力学等非局部模型的高保真快速算法与数值分析

国家自然科学基金

1+阅读 · 2014年12月31日

场论中偏微分方程的涡旋解

国家自然科学基金

0+阅读 · 2014年12月31日

微分代数方程中的误差可控计算理论与算法

国家自然科学基金

0+阅读 · 2014年12月31日

Translation Invariance of Neural Operators for the FitzHugh-Nagumo Model

Translation Invariance of Neural Operators for the FitzHugh-Nagumo Model

Arxiv

0+阅读 · 3月18日

Manta: Enhancing Mamba for Few-Shot Action Recognition of Long Sub-Sequence

Arxiv

0+阅读 · 3月18日

SF-Mamba: Rethinking State Space Model for Vision

Arxiv

0+阅读 · 3月17日

Mamba-3: Improved Sequence Modeling using State Space Principles

Arxiv

0+阅读 · 3月16日

Learning-guided Kansa collocation for forward and inverse PDEs beyond linearity

Arxiv

0+阅读 · 3月3日

Operator Learning Using Weak Supervision from Walk-on-Spheres

Arxiv

0+阅读 · 3月3日

From Complex Dynamics to DynFormer: Rethinking Transformers for PDEs

Arxiv

0+阅读 · 3月3日

Learning-guided Kansa collocation for forward and inverse PDEs beyond linearity

Arxiv

0+阅读 · 3月2日

Active operator learning with predictive uncertainty quantification for partial differential equations

Arxiv

0+阅读 · 2月25日

State Space Model for New-Generation Network Alternative to Transformers: A Survey

Arxiv

14+阅读 · 2024年4月15日

VIP会员

文章信息

相关主题

最新内容

新兴反无人机技术与不对称防御对策

新兴反无人机技术与不对称防御对策

专知会员服务

3+阅读 · 今天15:12

《美空军条令出版物 3-60，目标定位（2026版）》

《美空军条令出版物 3-60，目标定位（2026版）》

专知会员服务

4+阅读 · 今天15:06

多模态多智能体AI系统赋能军事态势感知：与单智能体方法的比较研究

多模态多智能体AI系统赋能军事态势感知：与单智能体方法的比较研究

专知会员服务

6+阅读 · 今天14:54

《无人机在冲突地区提供紧急医疗与外科支持》

《无人机在冲突地区提供紧急医疗与外科支持》

专知会员服务

4+阅读 · 今天14:48

《定向能武器交战授权治理管道》

《定向能武器交战授权治理管道》

专知会员服务

4+阅读 · 今天14:41

《防空协同制导：用于中段目标分配的多目标成本函数》

《防空协同制导：用于中段目标分配的多目标成本函数》

专知会员服务

4+阅读 · 今天14:35

《人工智能与海军作战》最新报告

《人工智能与海军作战》最新报告

专知会员服务

4+阅读 · 今天14:00

人工智能专题：中国人工智能系列白皮书-具身智能(2026)，100页pdf

人工智能专题：中国人工智能系列白皮书-具身智能(2026)，100页pdf

专知会员服务

2+阅读 · 今天13:17

【ICML spotlight 2026】HELIX：通过可学习特征身份嵌入实现时间序列插补的混合编码框架

【ICML spotlight 2026】HELIX：通过可学习特征身份嵌入实现时间序列插补的混合编码框架

专知会员服务

2+阅读 · 今天13:07

具身智能安全综述：风险、攻击与防御的多层分类框架

具身智能安全综述：风险、攻击与防御的多层分类框架

专知会员服务

3+阅读 · 今天13:04

【ICML 2026】GLANCE：用视觉-语言好奇心驱动VLM智能体主动探索

【ICML 2026】GLANCE：用视觉-语言好奇心驱动VLM智能体主动探索

专知会员服务

3+阅读 · 今天12:09

具身AI安全综述：风险、攻击与防御

具身AI安全综述：风险、攻击与防御

专知会员服务

3+阅读 · 今天12:02

DeepSeek 版Claude Code，免费小白安装教程来了！

DeepSeek 版Claude Code，免费小白安装教程来了！

专知会员服务

13+阅读 · 5月5日

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

专知会员服务

6+阅读 · 5月5日

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

专知会员服务

8+阅读 · 5月5日

相关VIP内容

【CMU博士论文】用于物理模拟的高效深度学习模型

【CMU博士论文】用于物理模拟的高效深度学习模型

专知会员服务

31+阅读 · 2025年8月24日

《图Mamba》最新综述，探索图学习中的状态空间模型

《图Mamba》最新综述，探索图学习中的状态空间模型

专知会员服务

31+阅读 · 2024年12月26日

《视觉中的Mamba：技术与应用》全面综述

《视觉中的Mamba：技术与应用》全面综述

专知会员服务

37+阅读 · 2024年10月7日

Mamba 架构在医学图像分析中的全面综述：分类、分割、重建及其他应用

Mamba 架构在医学图像分析中的全面综述：分类、分割、重建及其他应用

专知会员服务

29+阅读 · 2024年10月4日

非Transformer不可？最新《状态空间模型（SSM）》综述

非Transformer不可？最新《状态空间模型（SSM）》综述

专知会员服务

75+阅读 · 2024年4月16日

【干货书】科学计算中的经典数值方法，153页pdf

【干货书】科学计算中的经典数值方法，153页pdf

专知会员服务

56+阅读 · 2023年10月22日

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

专知会员服务

61+阅读 · 2023年7月16日

牛津大学发布首篇《Transformer多模态学习》综述论文，23页pdf涵盖310篇文献全面阐述MMT的理论与应用

牛津大学发布首篇《Transformer多模态学习》综述论文，23页pdf涵盖310篇文献全面阐述MMT的理论与应用

专知会员服务

124+阅读 · 2022年6月15日

【干货书】《Transformers 机器学习:深度探究》，Transformers for Machine Learning A Deep Dive

【干货书】《Transformers 机器学习:深度探究》，Transformers for Machine Learning A Deep Dive

专知会员服务

473+阅读 · 2022年4月21日

【Google】最新《高效Transformers》综述大全，Efficient Transformers: A Survey

【Google】最新《高效Transformers》综述大全，Efficient Transformers: A Survey

专知会员服务

113+阅读 · 2020年9月17日

热门VIP内容

开通专知VIP会员享更多权益服务

《美空军条令出版物 3-60，目标定位（2026版）》

《无人机在冲突地区提供紧急医疗与外科支持》

新兴反无人机技术与不对称防御对策

多模态多智能体AI系统赋能军事态势感知：与单智能体方法的比较研究

相关资讯

300+篇文献！一文详解基于Transformer的多模态学习最新进展

300+篇文献！一文详解基于Transformer的多模态学习最新进展

PaperWeekly

13+阅读 · 2022年7月1日

【干货书】《Transformers 机器学习:深度探究》，284页pdf

【干货书】《Transformers 机器学习:深度探究》，284页pdf

专知

72+阅读 · 2022年4月21日

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

专知

36+阅读 · 2022年2月7日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

专知

20+阅读 · 2020年3月1日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

神经网络常微分方程 (Neural ODEs) 解析

神经网络常微分方程 (Neural ODEs) 解析

AI科技评论

42+阅读 · 2019年8月9日

基于关系网络的视觉建模：有望替代卷积神经网络

基于关系网络的视觉建模：有望替代卷积神经网络

微软研究院AI头条

10+阅读 · 2019年7月12日

多图带你读懂 Transformers 的工作原理

多图带你读懂 Transformers 的工作原理

AI研习社

10+阅读 · 2019年3月18日

超全总结：神经网络加速之量化模型 | 附带代码

超全总结：神经网络加速之量化模型 | 附带代码

PaperWeekly

12+阅读 · 2018年6月1日

相关论文

Translation Invariance of Neural Operators for the FitzHugh-Nagumo Model

Translation Invariance of Neural Operators for the FitzHugh-Nagumo Model

Arxiv

0+阅读 · 3月18日

Manta: Enhancing Mamba for Few-Shot Action Recognition of Long Sub-Sequence

Arxiv

0+阅读 · 3月18日

SF-Mamba: Rethinking State Space Model for Vision

Arxiv

0+阅读 · 3月17日

Mamba-3: Improved Sequence Modeling using State Space Principles

Arxiv

0+阅读 · 3月16日

Learning-guided Kansa collocation for forward and inverse PDEs beyond linearity

Arxiv

0+阅读 · 3月3日

Operator Learning Using Weak Supervision from Walk-on-Spheres

Arxiv

0+阅读 · 3月3日

From Complex Dynamics to DynFormer: Rethinking Transformers for PDEs

Arxiv

0+阅读 · 3月3日

Learning-guided Kansa collocation for forward and inverse PDEs beyond linearity

Arxiv

0+阅读 · 3月2日

Active operator learning with predictive uncertainty quantification for partial differential equations

Arxiv

0+阅读 · 2月25日

State Space Model for New-Generation Network Alternative to Transformers: A Survey

Arxiv

14+阅读 · 2024年4月15日

相关基金

脉冲时滞微分方程的周期解及数值计算问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

正倒向随机微分方程与两类衍生模型的统计推断及金融中的应用

国家自然科学基金

2+阅读 · 2015年12月31日

基于算子空间的微分流形及非线性偏微分方程的研究

国家自然科学基金

0+阅读 · 2015年12月31日

平面N+M体问题和空间N+3体问题周期解的变分方法

国家自然科学基金

0+阅读 · 2015年12月31日

具有时滞效应的微分向量优化问题的理论、算法及应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

与微分算子相关的加权Hardy型空间实变理论及应用

国家自然科学基金

0+阅读 · 2014年12月31日

强非线性偏微分方程基于梯度重构的新型算法

国家自然科学基金

0+阅读 · 2014年12月31日

分数阶偏微分方程与近场动力学等非局部模型的高保真快速算法与数值分析

国家自然科学基金

1+阅读 · 2014年12月31日

场论中偏微分方程的涡旋解

国家自然科学基金

0+阅读 · 2014年12月31日

微分代数方程中的误差可控计算理论与算法

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员