有限记忆信念逼近在部分可观测马尔可夫决策过程中的最优控制 (Finite Memory Belief Approximation for Optimal Control in Partially Observable Markov Decision Processes) - 专知论文

会员服务 ·

0

部分可观测马尔可夫决策过程 · 最优 · 度量 · 马尔可夫决策过程 · 衰减 ·

Finite Memory Belief Approximation for Optimal Control in Partially Observable Markov Decision Processes

翻译：有限记忆信念逼近在部分可观测马尔可夫决策过程中的最优控制

from arxiv, 6 pages, 3 figures

We study finite memory belief approximation for partially observable (PO) stochastic optimal control (SOC) problems. While belief states are sufficient for SOC in partially observable Markov decision processes (POMDPs), they are generally infinite-dimensional and impractical. We interpret truncated input-output (IO) histories as inducing a belief approximation and develop a metric-based theory that directly relates information loss to control performance. Using the Wasserstein metric, we derive policy-conditional performance bounds that quantify value degradation induced by finite memory along typical closed-loop trajectories. Our analysis proceeds via a fixed-policy comparison: we evaluate two cost functionals under the same closed-loop execution and isolate the effect of replacing the true belief by its finite memory approximation inside the belief-level cost. For linear quadratic Gaussian (LQG) systems, we provide closed-form belief mismatch evaluation and empirically validate the predicted mechanism, demonstrating that belief mismatch decays approximately exponentially with memory length and that the induced performance mismatch scales accordingly. Together, these results provide a metric-aware characterization of what finite memory belief approximation can and cannot achieve in PO settings.

翻译：本文研究部分可观测（PO）随机最优控制（SOC）问题中的有限记忆信念逼近方法。尽管信念状态对于部分可观测马尔可夫决策过程（POMDP）中的SOC问题具有充分性，但其通常为无限维且不具实用性。我们将截断的输入-输出（IO）历史序列解释为诱导信念逼近的手段，并建立了一套基于度量的理论，直接将信息损失与控制性能相关联。利用Wasserstein度量，我们推导出策略条件性能边界，该边界量化了典型闭环轨迹上由有限记忆引起的价值衰减。我们的分析通过固定策略比较展开：在同一闭环执行过程中评估两个成本泛函，并分离在信念层级成本函数中用有限记忆逼近替代真实信念所产生的影响。对于线性二次高斯（LQG）系统，我们给出了闭式信念失配评估方法，并通过实验验证了预测机制，证明信念失配随记忆长度近似指数衰减，且引发的性能失配相应缩放。这些结果共同提供了有限记忆信念逼近在PO场景中能力与局限的度量感知表征。

0

相关内容

部分可观测马尔可夫决策过程

部分可观测马尔可夫决策过程

《主观概率约束下寻找可行系统及其军事应用》69页

《主观概率约束下寻找可行系统及其军事应用》69页

专知会员服务

26+阅读 · 2025年9月27日

《论多智能体决策的复杂性：从博弈学习到部分监控》115页

《论多智能体决策的复杂性：从博弈学习到部分监控》115页

专知会员服务

48+阅读 · 2025年2月26日

基于强化学习的最优控制指令模仿生成方法

基于强化学习的最优控制指令模仿生成方法

专知会员服务

33+阅读 · 2023年12月2日

【伯克利博士论文】不确定性序列决策:最优性保证，组合学习，以及在机器人技术和生态学中的应用，256页pdf

【伯克利博士论文】不确定性序列决策:最优性保证，组合学习，以及在机器人技术和生态学中的应用，256页pdf

专知会员服务

37+阅读 · 2023年5月17日

《分布式部分可观察马尔科夫决策过程中机器智能体的分解信念》美国空军技术学院2022最新论文

《分布式部分可观察马尔科夫决策过程中机器智能体的分解信念》美国空军技术学院2022最新论文

专知会员服务

26+阅读 · 2022年10月18日

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

专知会员服务

47+阅读 · 2022年9月29日

【伯克利马毅老师】强化学习与最优控制综述

【伯克利马毅老师】强化学习与最优控制综述

专知会员服务

78+阅读 · 2022年4月26日

【CVPR2020-中科院计算所】弱监督语义分割的自监督等价注意力机制，Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation

【CVPR2020-中科院计算所】弱监督语义分割的自监督等价注意力机制，Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation

专知会员服务

76+阅读 · 2020年4月10日

【AAAI 2019 Tutorial】不确定性下基于知识的顺序决策（Knowledge-based Sequential Decision-Making under Uncertainty），张世琦，Mohan Sridharan

【AAAI 2019 Tutorial】不确定性下基于知识的顺序决策（Knowledge-based Sequential Decision-Making under Uncertainty），张世琦，Mohan Sridharan

专知会员服务

13+阅读 · 2019年11月18日

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

专知会员服务

24+阅读 · 2019年11月11日

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

38+阅读 · 2023年4月13日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

【军事博弈论】在大规模战斗行动中为旅级作战部队制定有效的优先情报需求

【军事博弈论】在大规模战斗行动中为旅级作战部队制定有效的优先情报需求

专知

59+阅读 · 2022年6月9日

【伯克利马毅老师】强化学习与最优控制综述

【伯克利马毅老师】强化学习与最优控制综述

专知

20+阅读 · 2022年4月26日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

赛尔笔记 | Attention！注意力机制可解释吗？

赛尔笔记 | Attention！注意力机制可解释吗？

哈工大SCIR

23+阅读 · 2019年9月27日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

MIT科学家Dimitri P. Bertsekas最新2019出版《强化学习与最优控制》(附书稿PDF&讲义)

MIT科学家Dimitri P. Bertsekas最新2019出版《强化学习与最优控制》(附书稿PDF&讲义)

专知

22+阅读 · 2018年12月17日

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

专知

32+阅读 · 2018年8月14日

【干货】终极入门马尔可夫网络 (Markov Networks)——概率图模型

【干货】终极入门马尔可夫网络 (Markov Networks)——概率图模型

机器学习研究会

31+阅读 · 2018年1月7日

基于马尔科夫信道模型的无线网络通信系统时延性能研究

国家自然科学基金

0+阅读 · 2015年12月31日

马尔科夫跳跃正系统的稳定分析与控制综合

国家自然科学基金

0+阅读 · 2015年12月31日

连续时间马氏决策过程受约束问题的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于非凸控制区域的倒向重随机控制系统最优控制必要条件的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于受约束部分可观马氏决策模型的稀疏宽带信号感知机制的建模和控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

有限范围随机最优控制系统的数值方法与均场倒向随机系统的最优控制问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

Semi-Markovian跳跃系统的分析、控制综合与状态估计研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机递归最优控制及其在金融中的应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

随机动态系统的风险分析及其最优控制问题

国家自然科学基金

1+阅读 · 2014年12月31日

适用于模拟神经突触功能的电阻可渐变调控忆阻器及其机理研究

国家自然科学基金

0+阅读 · 2014年12月31日

Perception-Based Beliefs for POMDPs with Visual Observations

Arxiv

0+阅读 · 2月5日

Efficient Algorithms for Robust Markov Decision Processes with $s$-Rectangular Ambiguity Sets

Arxiv

0+阅读 · 2月5日

Toward Learning POMDPs Beyond Full-Rank Actions and State Observability

Arxiv

0+阅读 · 2月3日

Learning Markov Decision Processes under Fully Bandit Feedback

Arxiv

0+阅读 · 2月2日

Toward Learning POMDPs Beyond Full-Rank Actions and State Observability

Arxiv

0+阅读 · 2月1日

Toward Learning POMDPs Beyond Full-Rank Actions and State Observability

Arxiv

0+阅读 · 1月26日

Learning the Influence Graph of a Markov Process that Randomly Resets to the Past

Arxiv

0+阅读 · 1月17日

Information-theoretic coordinate subset and partition selection of multivariate Markov chains via submodular optimization

Arxiv

0+阅读 · 1月15日

Minimum information Markov model

Arxiv

0+阅读 · 1月11日

On Good-for-MDPs Automata

Arxiv

0+阅读 · 2025年12月28日

VIP会员

文章信息

相关主题

部分可观测马尔可夫决策过程

马尔可夫决策过程

相关VIP内容

《主观概率约束下寻找可行系统及其军事应用》69页

《主观概率约束下寻找可行系统及其军事应用》69页

专知会员服务

26+阅读 · 2025年9月27日

《论多智能体决策的复杂性：从博弈学习到部分监控》115页

《论多智能体决策的复杂性：从博弈学习到部分监控》115页

专知会员服务

48+阅读 · 2025年2月26日

基于强化学习的最优控制指令模仿生成方法

基于强化学习的最优控制指令模仿生成方法

专知会员服务

33+阅读 · 2023年12月2日

【伯克利博士论文】不确定性序列决策:最优性保证，组合学习，以及在机器人技术和生态学中的应用，256页pdf

【伯克利博士论文】不确定性序列决策:最优性保证，组合学习，以及在机器人技术和生态学中的应用，256页pdf

专知会员服务

37+阅读 · 2023年5月17日

《分布式部分可观察马尔科夫决策过程中机器智能体的分解信念》美国空军技术学院2022最新论文

《分布式部分可观察马尔科夫决策过程中机器智能体的分解信念》美国空军技术学院2022最新论文

专知会员服务

26+阅读 · 2022年10月18日

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

专知会员服务

47+阅读 · 2022年9月29日

【伯克利马毅老师】强化学习与最优控制综述

【伯克利马毅老师】强化学习与最优控制综述

专知会员服务

78+阅读 · 2022年4月26日

【CVPR2020-中科院计算所】弱监督语义分割的自监督等价注意力机制，Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation

【CVPR2020-中科院计算所】弱监督语义分割的自监督等价注意力机制，Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation

专知会员服务

76+阅读 · 2020年4月10日

【AAAI 2019 Tutorial】不确定性下基于知识的顺序决策（Knowledge-based Sequential Decision-Making under Uncertainty），张世琦，Mohan Sridharan

【AAAI 2019 Tutorial】不确定性下基于知识的顺序决策（Knowledge-based Sequential Decision-Making under Uncertainty），张世琦，Mohan Sridharan

专知会员服务

13+阅读 · 2019年11月18日

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

专知会员服务

24+阅读 · 2019年11月11日

热门VIP内容

开通专知VIP会员享更多权益服务

美国防部门开始扩建金穹反导系统基础设施

《基于选择性深度神经网络分类的弹性无线通信》最新报告

《多域作战中融合网络、电子战与动能机动》

《在东欧磨砺反无人机技能》美陆军最新反无人机训练报告

相关资讯

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

38+阅读 · 2023年4月13日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

【军事博弈论】在大规模战斗行动中为旅级作战部队制定有效的优先情报需求

【军事博弈论】在大规模战斗行动中为旅级作战部队制定有效的优先情报需求

专知

59+阅读 · 2022年6月9日

【伯克利马毅老师】强化学习与最优控制综述

【伯克利马毅老师】强化学习与最优控制综述

专知

20+阅读 · 2022年4月26日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

赛尔笔记 | Attention！注意力机制可解释吗？

赛尔笔记 | Attention！注意力机制可解释吗？

哈工大SCIR

23+阅读 · 2019年9月27日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

MIT科学家Dimitri P. Bertsekas最新2019出版《强化学习与最优控制》(附书稿PDF&讲义)

MIT科学家Dimitri P. Bertsekas最新2019出版《强化学习与最优控制》(附书稿PDF&讲义)

专知

22+阅读 · 2018年12月17日

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

专知

32+阅读 · 2018年8月14日

【干货】终极入门马尔可夫网络 (Markov Networks)——概率图模型

【干货】终极入门马尔可夫网络 (Markov Networks)——概率图模型

机器学习研究会

31+阅读 · 2018年1月7日

相关论文

Perception-Based Beliefs for POMDPs with Visual Observations

Arxiv

0+阅读 · 2月5日

Efficient Algorithms for Robust Markov Decision Processes with $s$-Rectangular Ambiguity Sets

Arxiv

0+阅读 · 2月5日

Toward Learning POMDPs Beyond Full-Rank Actions and State Observability

Arxiv

0+阅读 · 2月3日

Learning Markov Decision Processes under Fully Bandit Feedback

Arxiv

0+阅读 · 2月2日

Toward Learning POMDPs Beyond Full-Rank Actions and State Observability

Arxiv

0+阅读 · 2月1日

Toward Learning POMDPs Beyond Full-Rank Actions and State Observability

Arxiv

0+阅读 · 1月26日

Learning the Influence Graph of a Markov Process that Randomly Resets to the Past

Arxiv

0+阅读 · 1月17日

Information-theoretic coordinate subset and partition selection of multivariate Markov chains via submodular optimization

Arxiv

0+阅读 · 1月15日

Minimum information Markov model

Arxiv

0+阅读 · 1月11日

On Good-for-MDPs Automata

Arxiv

0+阅读 · 2025年12月28日

相关基金

基于马尔科夫信道模型的无线网络通信系统时延性能研究

国家自然科学基金

0+阅读 · 2015年12月31日

马尔科夫跳跃正系统的稳定分析与控制综合

国家自然科学基金

0+阅读 · 2015年12月31日

连续时间马氏决策过程受约束问题的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于非凸控制区域的倒向重随机控制系统最优控制必要条件的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于受约束部分可观马氏决策模型的稀疏宽带信号感知机制的建模和控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

有限范围随机最优控制系统的数值方法与均场倒向随机系统的最优控制问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

Semi-Markovian跳跃系统的分析、控制综合与状态估计研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机递归最优控制及其在金融中的应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

随机动态系统的风险分析及其最优控制问题

国家自然科学基金

1+阅读 · 2014年12月31日

适用于模拟神经突触功能的电阻可渐变调控忆阻器及其机理研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员