状态空间模型与隐马尔可夫模型关系研究 (On the Relation of State Space Models and Hidden Markov Models) - 专知论文

会员服务 ·

0

状态空间 · 空间模型 · 概率 · 马尔可夫模型 · 推断 ·

On the Relation of State Space Models and Hidden Markov Models

翻译：状态空间模型与隐马尔可夫模型关系研究

Aydin Ghojogh,M. Hadi Sepanj,Benyamin Ghojogh

State Space Models (SSMs) and Hidden Markov Models (HMMs) are foundational frameworks for modeling sequential data with latent variables and are widely used in signal processing, control theory, and machine learning. Despite their shared temporal structure, they differ fundamentally in the nature of their latent states, probabilistic assumptions, inference procedures, and training paradigms. Recently, deterministic state space models have re-emerged in natural language processing through architectures such as S4 and Mamba, raising new questions about the relationship between classical probabilistic SSMs, HMMs, and modern neural sequence models. In this paper, we present a unified and systematic comparison of HMMs, linear Gaussian state space models, Kalman filtering, and contemporary NLP state space models. We analyze their formulations through the lens of probabilistic graphical models, examine their inference algorithms -- including forward-backward inference and Kalman filtering -- and contrast their learning procedures via Expectation-Maximization and gradient-based optimization. By highlighting both structural similarities and semantic differences, we clarify when these models are equivalent, when they fundamentally diverge, and how modern NLP SSMs relate to classical probabilistic models. Our analysis bridges perspectives from control theory, probabilistic modeling, and modern deep learning.

翻译：状态空间模型（SSMs）与隐马尔可夫模型（HMMs）是建模具有隐变量的序列数据的基础框架，广泛应用于信号处理、控制理论和机器学习领域。尽管它们具有相似的时间结构，但在隐状态性质、概率假设、推断过程以及训练范式方面存在根本性差异。近期，确定性状态空间模型通过S4和Mamba等架构在自然语言处理领域重新兴起，这引发了关于经典概率SSMs、HMMs与现代神经序列模型之间关系的新问题。本文对HMMs、线性高斯状态空间模型、卡尔曼滤波以及当代NLP状态空间模型进行了统一而系统的比较。我们通过概率图模型的视角分析其数学表述，研究其推断算法——包括前向后向推断与卡尔曼滤波——并对比其通过期望最大化与基于梯度的优化的学习过程。通过强调结构相似性与语义差异性，我们阐明了这些模型在何种条件下等价、在何处存在根本分歧，以及现代NLP SSMs如何与经典概率模型相关联。我们的分析融合了控制理论、概率建模与现代深度学习的多重视角。

0

相关内容

状态空间

面向性能、成本效益、云边隐私与可信性的大小语言模型协作综述

面向性能、成本效益、云边隐私与可信性的大小语言模型协作综述

专知会员服务

15+阅读 · 2025年10月18日

【博士论文】弥合多模态基础模型与世界模型之间的鸿沟

【博士论文】弥合多模态基础模型与世界模型之间的鸿沟

专知会员服务

31+阅读 · 2025年10月9日

多模态基础模型的机制可解释性综述

多模态基础模型的机制可解释性综述

专知会员服务

43+阅读 · 2025年2月28日

【斯坦福博士论文】通过深度状态空间方法推进序列建模

【斯坦福博士论文】通过深度状态空间方法推进序列建模

专知会员服务

28+阅读 · 2025年1月5日

【博士论文】高效且有效的基础大型多模态模型学习

【博士论文】高效且有效的基础大型多模态模型学习

专知会员服务

40+阅读 · 2024年10月21日

【新书】空间-时间数据建模：马尔可夫随机场、客观贝叶斯与多尺度模型，293页pdf

【新书】空间-时间数据建模：马尔可夫随机场、客观贝叶斯与多尺度模型，293页pdf

专知会员服务

59+阅读 · 2024年10月19日

多模态大语言模型研究进展！

多模态大语言模型研究进展！

专知会员服务

43+阅读 · 2024年7月15日

非Transformer不可？最新《状态空间模型（SSM）》综述

非Transformer不可？最新《状态空间模型（SSM）》综述

专知会员服务

75+阅读 · 2024年4月16日

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

专知会员服务

76+阅读 · 2023年11月27日

【瑞典林大博士论文】基于高斯马尔可夫随机场的可扩展贝叶斯空间分析，66页pdf

【瑞典林大博士论文】基于高斯马尔可夫随机场的可扩展贝叶斯空间分析，66页pdf

专知会员服务

46+阅读 · 2020年9月19日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

49+阅读 · 2022年11月16日

深度学习可解释性研究进展

深度学习可解释性研究进展

专知

19+阅读 · 2020年6月26日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

概率图模型体系：HMM、MEMM、CRF

概率图模型体系：HMM、MEMM、CRF

机器学习研究会

30+阅读 · 2018年2月10日

【干货】终极入门马尔可夫网络 (Markov Networks)——概率图模型

【干货】终极入门马尔可夫网络 (Markov Networks)——概率图模型

机器学习研究会

31+阅读 · 2018年1月7日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

半参数空间自回归模型的理论研究及应用

国家自然科学基金

1+阅读 · 2015年12月31日

即时通信中的隐蔽通信模型及方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

Semi-Markovian跳跃系统的分析、控制综合与状态估计研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

8+阅读 · 2015年12月31日

状态空间搜索的anytime模式及其高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

纵向数据的动态半参数建模及其统计推断

国家自然科学基金

0+阅读 · 2014年12月31日

基于形态改变的多体空间系统动力学建模、运动规划与最优控制

国家自然科学基金

0+阅读 · 2014年12月31日

空间插值的微分几何方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

运动目标间语义关系的时空建模及可视化研究

国家自然科学基金

1+阅读 · 2014年12月31日

On the relation between Global VAR Models and Matrix Time Series Models with Multiple Terms

Arxiv

0+阅读 · 2月13日

Towards Understanding What State Space Models Learn About Code

Arxiv

0+阅读 · 2月6日

Partial Ring Scan: Revisiting Scan Order in Vision State Space Models

Arxiv

0+阅读 · 2月4日

State of the Art of LLM-Enabled Interaction with Visualization

Arxiv

0+阅读 · 2月3日

Markov Random Fields: Structural Properties, Phase Transition, and Response Function Analysis

Arxiv

0+阅读 · 2月2日

Mechanistic evaluation of Transformers and state space models

Arxiv

0+阅读 · 1月30日

Studying the Soupability of Documents in State Space Models

Arxiv

0+阅读 · 1月30日

MAR: Efficient Large Language Models via Module-aware Architecture Refinement

Arxiv

0+阅读 · 1月29日

On the Expressiveness of State Space Models via Temporal Logics

Arxiv

0+阅读 · 1月27日

Coarse-to-fine spatial modeling: A scalable, machine-learning-compatible spatial model

Arxiv

0+阅读 · 1月14日

VIP会员

文章信息

相关主题

马尔可夫模型

最新内容

2026 年 Agentic AI 工程师完全指南：一份系统化的学习路线图

2026 年 Agentic AI 工程师完全指南：一份系统化的学习路线图

专知会员服务

2+阅读 · 今天14:46

内省扩散语言模型

内省扩散语言模型

专知会员服务

1+阅读 · 今天14:42

美伊停火协议：评估、各方反应及美国会面临的问题

美伊停火协议：评估、各方反应及美国会面临的问题

专知会员服务

3+阅读 · 今天13:00

国外反无人机系统与技术动态

国外反无人机系统与技术动态

专知会员服务

2+阅读 · 今天12:48

世界无人无线电情报系统经验分析与实验实现（研究论文）

世界无人无线电情报系统经验分析与实验实现（研究论文）

专知会员服务

3+阅读 · 今天12:44

大规模作战行动中的战术作战评估（研究论文）

大规模作战行动中的战术作战评估（研究论文）

专知会员服务

3+阅读 · 今天12:21

（中文长文）城市战与小部队城市战术：来自俄乌战争的观察

（中文长文）城市战与小部队城市战术：来自俄乌战争的观察

专知会员服务

3+阅读 · 今天12:13

未来的海战无人自主系统

未来的海战无人自主系统

专知会员服务

2+阅读 · 今天12:05

美军多域作战现状分析：战略、概念还是幻想？

美军多域作战现状分析：战略、概念还是幻想？

专知会员服务

4+阅读 · 今天11:52

（中文万字长文）美智库：针对伊朗的防空作战分析（报告）

（中文万字长文）美智库：针对伊朗的防空作战分析（报告）

专知会员服务

18+阅读 · 今天7:12

无人机与反无人机系统（书籍）

无人机与反无人机系统（书籍）

专知会员服务

16+阅读 · 今天6:45

（中文万字长文）2025-2026年乌克兰无人机拦截技术演进：反无人机技术、项目、效果、西方援助

（中文万字长文）2025-2026年乌克兰无人机拦截技术演进：反无人机技术、项目、效果、西方援助

专知会员服务

6+阅读 · 今天6:12

美陆军2026条令：安全与机动支援

美陆军2026条令：安全与机动支援

专知会员服务

6+阅读 · 今天5:49

【牛津博士论文】以语言为接口的医学影像表示学习

【牛津博士论文】以语言为接口的医学影像表示学习

专知会员服务

12+阅读 · 4月13日

基于大语言模型的医疗推理研究：综述与 MR-Bench 基准测试

基于大语言模型的医疗推理研究：综述与 MR-Bench 基准测试

专知会员服务

10+阅读 · 4月13日

相关VIP内容

面向性能、成本效益、云边隐私与可信性的大小语言模型协作综述

面向性能、成本效益、云边隐私与可信性的大小语言模型协作综述

专知会员服务

15+阅读 · 2025年10月18日

【博士论文】弥合多模态基础模型与世界模型之间的鸿沟

【博士论文】弥合多模态基础模型与世界模型之间的鸿沟

专知会员服务

31+阅读 · 2025年10月9日

多模态基础模型的机制可解释性综述

多模态基础模型的机制可解释性综述

专知会员服务

43+阅读 · 2025年2月28日

【斯坦福博士论文】通过深度状态空间方法推进序列建模

【斯坦福博士论文】通过深度状态空间方法推进序列建模

专知会员服务

28+阅读 · 2025年1月5日

【博士论文】高效且有效的基础大型多模态模型学习

【博士论文】高效且有效的基础大型多模态模型学习

专知会员服务

40+阅读 · 2024年10月21日

【新书】空间-时间数据建模：马尔可夫随机场、客观贝叶斯与多尺度模型，293页pdf

【新书】空间-时间数据建模：马尔可夫随机场、客观贝叶斯与多尺度模型，293页pdf

专知会员服务

59+阅读 · 2024年10月19日

多模态大语言模型研究进展！

多模态大语言模型研究进展！

专知会员服务

43+阅读 · 2024年7月15日

非Transformer不可？最新《状态空间模型（SSM）》综述

非Transformer不可？最新《状态空间模型（SSM）》综述

专知会员服务

75+阅读 · 2024年4月16日

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

专知会员服务

76+阅读 · 2023年11月27日

【瑞典林大博士论文】基于高斯马尔可夫随机场的可扩展贝叶斯空间分析，66页pdf

【瑞典林大博士论文】基于高斯马尔可夫随机场的可扩展贝叶斯空间分析，66页pdf

专知会员服务

46+阅读 · 2020年9月19日

热门VIP内容

开通专知VIP会员享更多权益服务

内省扩散语言模型

国外反无人机系统与技术动态

2026 年 Agentic AI 工程师完全指南：一份系统化的学习路线图

美伊停火协议：评估、各方反应及美国会面临的问题

相关资讯

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

49+阅读 · 2022年11月16日

深度学习可解释性研究进展

深度学习可解释性研究进展

专知

19+阅读 · 2020年6月26日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

概率图模型体系：HMM、MEMM、CRF

概率图模型体系：HMM、MEMM、CRF

机器学习研究会

30+阅读 · 2018年2月10日

【干货】终极入门马尔可夫网络 (Markov Networks)——概率图模型

【干货】终极入门马尔可夫网络 (Markov Networks)——概率图模型

机器学习研究会

31+阅读 · 2018年1月7日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

On the relation between Global VAR Models and Matrix Time Series Models with Multiple Terms

Arxiv

0+阅读 · 2月13日

Towards Understanding What State Space Models Learn About Code

Arxiv

0+阅读 · 2月6日

Partial Ring Scan: Revisiting Scan Order in Vision State Space Models

Arxiv

0+阅读 · 2月4日

State of the Art of LLM-Enabled Interaction with Visualization

Arxiv

0+阅读 · 2月3日

Markov Random Fields: Structural Properties, Phase Transition, and Response Function Analysis

Arxiv

0+阅读 · 2月2日

Mechanistic evaluation of Transformers and state space models

Arxiv

0+阅读 · 1月30日

Studying the Soupability of Documents in State Space Models

Arxiv

0+阅读 · 1月30日

MAR: Efficient Large Language Models via Module-aware Architecture Refinement

Arxiv

0+阅读 · 1月29日

On the Expressiveness of State Space Models via Temporal Logics

Arxiv

0+阅读 · 1月27日

Coarse-to-fine spatial modeling: A scalable, machine-learning-compatible spatial model

Arxiv

0+阅读 · 1月14日

相关基金

半参数空间自回归模型的理论研究及应用

国家自然科学基金

1+阅读 · 2015年12月31日

即时通信中的隐蔽通信模型及方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

Semi-Markovian跳跃系统的分析、控制综合与状态估计研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

8+阅读 · 2015年12月31日

状态空间搜索的anytime模式及其高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

纵向数据的动态半参数建模及其统计推断

国家自然科学基金

0+阅读 · 2014年12月31日

基于形态改变的多体空间系统动力学建模、运动规划与最优控制

国家自然科学基金

0+阅读 · 2014年12月31日

空间插值的微分几何方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

运动目标间语义关系的时空建模及可视化研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员