Strongly Polynomial Time Complexity of Policy Iteration for $L_\infty$ Robust MDPs - 专知论文

会员服务 ·

0

多项式时间 · 鲁棒 · 马尔可夫决策过程 · 算法 · 不确定 ·

Strongly Polynomial Time Complexity of Policy Iteration for $L_\infty$ Robust MDPs

翻译：$L_\infty$ 鲁棒马尔可夫决策过程中策略迭代的强多项式时间复杂度

Ali Asadi,Krishnendu Chatterjee,Ehsan Goharshady,Mehrdad Karrabi,Alipasha Montaseri,Carlo Pagano

Markov decision processes (MDPs) are a fundamental model in sequential decision making. Robust MDPs (RMDPs) extend this framework by allowing uncertainty in transition probabilities and optimizing against the worst-case realization of that uncertainty. In particular, $(s, a)$-rectangular RMDPs with $L_\infty$ uncertainty sets form a fundamental and expressive model: they subsume classical MDPs and turn-based stochastic games. We consider this model with discounted payoffs. The existence of polynomial and strongly-polynomial time algorithms is a fundamental problem for these optimization models. For MDPs, linear programming yields polynomial-time algorithms for any arbitrary discount factor, and the seminal work of Ye established strongly--polynomial time for a fixed discount factor. The generalization of such results to RMDPs has remained an important open problem. In this work, we show that a robust policy iteration algorithm runs in strongly-polynomial time for $(s, a)$-rectangular $L_\infty$ RMDPs with a constant (fixed) discount factor, resolving an important algorithmic question.

翻译：马尔可夫决策过程（MDPs）是序贯决策中的基础模型。鲁棒马尔可夫决策过程（RMDPs）通过允许转移概率存在不确定性，并针对该不确定性的最坏情况实现进行优化，扩展了这一框架。特别地，具有 $L_\infty$ 不确定性集的 $(s, a)$-矩形 RMDPs 构成了一个基础且富有表达力的模型：它们包含了经典的 MDPs 和回合制随机博弈。我们考虑该模型在折现回报下的情形。对于这些优化模型，是否存在多项式时间及强多项式时间算法是一个基本问题。对于 MDPs，线性规划可为任意折现因子提供多项式时间算法，而 Ye 的开创性工作则为固定折现因子确立了强多项式时间。将此类结果推广到 RMDPs 一直是一个重要的开放性问题。在本工作中，我们证明了一个鲁棒策略迭代算法对于具有常数（固定）折现因子的 $(s, a)$-矩形 $L_\infty$ RMDPs 可在强多项式时间内运行，从而解决了一个重要的算法问题。

0

相关内容

多项式时间

多项式时间

《自适应鲁棒马尔可夫决策过程：协同作战飞机（CCA）对抗性监视任务应用》44页技术报告

《自适应鲁棒马尔可夫决策过程：协同作战飞机（CCA）对抗性监视任务应用》44页技术报告

专知会员服务

26+阅读 · 2025年12月9日

【AAAI2026】模型不确定性下的在线鲁棒规划：一种基于采样的方法

【AAAI2026】模型不确定性下的在线鲁棒规划：一种基于采样的方法

专知会员服务

14+阅读 · 2025年11月8日

【MIT博士论文】高效的鲁棒性和可解释性在学习和数据驱动决策中的应用

【MIT博士论文】高效的鲁棒性和可解释性在学习和数据驱动决策中的应用

专知会员服务

48+阅读 · 2024年7月21日

加强军事决策过程（MDMP）：审视快速决策与同步（RDSP）、过程自动化和人工智能集成

加强军事决策过程（MDMP）：审视快速决策与同步（RDSP）、过程自动化和人工智能集成

专知会员服务

34+阅读 · 2024年6月15日

【伯克利博士论文】不确定性序列决策:最优性保证，组合学习，以及在机器人技术和生态学中的应用，256页pdf

【伯克利博士论文】不确定性序列决策:最优性保证，组合学习，以及在机器人技术和生态学中的应用，256页pdf

专知会员服务

38+阅读 · 2023年5月17日

【米兰理工学院博士论文】强化学习中环境可配置性的利用，304页pdf

【米兰理工学院博士论文】强化学习中环境可配置性的利用，304页pdf

专知会员服务

30+阅读 · 2023年3月6日

强化学习如何可信可靠？CMU最新《可信赖强化学习》综述，36页pdf阐述可信强化学习的鲁棒性、安全性和泛化性

强化学习如何可信可靠？CMU最新《可信赖强化学习》综述，36页pdf阐述可信强化学习的鲁棒性、安全性和泛化性

专知会员服务

92+阅读 · 2022年9月25日

【ICML2022】鲁棒强化学习的策略梯度法

【ICML2022】鲁棒强化学习的策略梯度法

专知会员服务

38+阅读 · 2022年5月21日

【干货书】鲁棒优化Robust Optimization，570页pdf

专知会员服务

144+阅读 · 2021年3月17日

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

专知会员服务

13+阅读 · 2019年11月17日

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

38+阅读 · 2023年4月13日

《多域作战环境下的军事决策过程》

《多域作战环境下的军事决策过程》

专知

113+阅读 · 2023年4月12日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

50+阅读 · 2022年11月16日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

Github项目推荐 | Manopth - PyTorch的MANO层，生成手部网格作为可微分层

Github项目推荐 | Manopth - PyTorch的MANO层，生成手部网格作为可微分层

AI研习社

10+阅读 · 2019年3月20日

Github 项目推荐 | 论文的代码实现：可变形ConvNets v2的PyTorch实现

Github 项目推荐 | 论文的代码实现：可变形ConvNets v2的PyTorch实现

AI研习社

22+阅读 · 2019年1月10日

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

人工智能前沿讲习班

27+阅读 · 2018年12月13日

每日论文 | 深度卷积高斯过程；用多任务弱监督训练复杂模型；在时序数据中发现新连接类型

每日论文 | 深度卷积高斯过程；用多任务弱监督训练复杂模型；在时序数据中发现新连接类型

论智

12+阅读 · 2018年10月10日

【干货】终极入门马尔可夫网络 (Markov Networks)——概率图模型

【干货】终极入门马尔可夫网络 (Markov Networks)——概率图模型

机器学习研究会

31+阅读 · 2018年1月7日

带有随机干扰的非齐次马尔科夫跳变系统的鲁棒滤波研究

国家自然科学基金

0+阅读 · 2015年12月31日

连续时间马氏决策过程受约束问题的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于不确定性计算的鲁棒风险评估关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

非线性切换系统在线鲁棒近似优化控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

布尔可满足性算法和单调布尔函数的复杂性

国家自然科学基金

0+阅读 · 2015年12月31日

基于离散化Lyapunov-Krasovskii泛函方法的时滞Markov跳变系统分析与综合

国家自然科学基金

0+阅读 · 2015年12月31日

不确定环境下具有稀疏特征的鲁棒投资组合选择问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于马尔科夫链的线性系统求解问题的高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

逐段决定马氏过程的测度值生成元与可加泛函

国家自然科学基金

0+阅读 · 2014年12月31日

超线性增长条件下的混杂型随机时滞微分方程

国家自然科学基金

0+阅读 · 2014年12月31日

Optimization-Based Robust Permissive Synthesis for Interval MDPs

Arxiv

0+阅读 · 3月16日

Non-Rectangular Average-Reward Robust MDPs: Optimal Policies and Their Transient Values

Arxiv

0+阅读 · 3月10日

Data-driven robust Markov decision processes on Borel spaces: performance guarantees via an axiomatic approach

Arxiv

0+阅读 · 3月9日

Near-Optimal Sample Complexity for Online Constrained MDPs

Arxiv

0+阅读 · 2月16日

Multi-Environment MDPs with Prior and Universal Semantics

Arxiv

0+阅读 · 2月11日

Finite-State Controllers for (Hidden-Model) POMDPs using Deep Reinforcement Learning

Arxiv

0+阅读 · 2月9日

Efficient Policy Optimization in Robust Constrained MDPs with Iteration Complexity Guarantees

Arxiv

0+阅读 · 2月7日

Efficient Algorithms for Robust Markov Decision Processes with $s$-Rectangular Ambiguity Sets

Arxiv

0+阅读 · 2月5日

Data- and Variance-dependent Regret Bounds for Online Tabular MDPs

Arxiv

0+阅读 · 2月2日

Learning Sequential Decisions from Multiple Sources via Group-Robust Markov Decision Processes

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

多项式时间

马尔可夫决策过程

最新内容

《美陆军条例：陆军指挥政策（2026版）》

《美陆军条例：陆军指挥政策（2026版）》

专知会员服务

4+阅读 · 今天8:10

《提升美军全域城市作战训练最佳实践的案例研究》366页

《提升美军全域城市作战训练最佳实践的案例研究》366页

专知会员服务

6+阅读 · 今天8:06

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

4+阅读 · 今天8:02

美海军数字作战负责人：如何利用数据快速生成战斗力

美海军数字作战负责人：如何利用数据快速生成战斗力

专知会员服务

3+阅读 · 今天7:32

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

10+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

7+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

5+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

3+阅读 · 4月20日

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

专知会员服务

7+阅读 · 4月20日

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

专知会员服务

3+阅读 · 4月20日

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

3+阅读 · 4月20日

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

7+阅读 · 4月20日

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

6+阅读 · 4月20日

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

10+阅读 · 4月20日

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

5+阅读 · 4月20日

相关VIP内容

《自适应鲁棒马尔可夫决策过程：协同作战飞机（CCA）对抗性监视任务应用》44页技术报告

《自适应鲁棒马尔可夫决策过程：协同作战飞机（CCA）对抗性监视任务应用》44页技术报告

专知会员服务

26+阅读 · 2025年12月9日

【AAAI2026】模型不确定性下的在线鲁棒规划：一种基于采样的方法

【AAAI2026】模型不确定性下的在线鲁棒规划：一种基于采样的方法

专知会员服务

14+阅读 · 2025年11月8日

【MIT博士论文】高效的鲁棒性和可解释性在学习和数据驱动决策中的应用

【MIT博士论文】高效的鲁棒性和可解释性在学习和数据驱动决策中的应用

专知会员服务

48+阅读 · 2024年7月21日

加强军事决策过程（MDMP）：审视快速决策与同步（RDSP）、过程自动化和人工智能集成

加强军事决策过程（MDMP）：审视快速决策与同步（RDSP）、过程自动化和人工智能集成

专知会员服务

34+阅读 · 2024年6月15日

【伯克利博士论文】不确定性序列决策:最优性保证，组合学习，以及在机器人技术和生态学中的应用，256页pdf

【伯克利博士论文】不确定性序列决策:最优性保证，组合学习，以及在机器人技术和生态学中的应用，256页pdf

专知会员服务

38+阅读 · 2023年5月17日

【米兰理工学院博士论文】强化学习中环境可配置性的利用，304页pdf

【米兰理工学院博士论文】强化学习中环境可配置性的利用，304页pdf

专知会员服务

30+阅读 · 2023年3月6日

强化学习如何可信可靠？CMU最新《可信赖强化学习》综述，36页pdf阐述可信强化学习的鲁棒性、安全性和泛化性

强化学习如何可信可靠？CMU最新《可信赖强化学习》综述，36页pdf阐述可信强化学习的鲁棒性、安全性和泛化性

专知会员服务

92+阅读 · 2022年9月25日

【ICML2022】鲁棒强化学习的策略梯度法

【ICML2022】鲁棒强化学习的策略梯度法

专知会员服务

38+阅读 · 2022年5月21日

【干货书】鲁棒优化Robust Optimization，570页pdf

专知会员服务

144+阅读 · 2021年3月17日

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

专知会员服务

13+阅读 · 2019年11月17日

热门VIP内容

开通专知VIP会员享更多权益服务

《提升美军全域城市作战训练最佳实践的案例研究》366页

美海军数字作战负责人：如何利用数据快速生成战斗力

《美陆军条例：陆军指挥政策（2026版）》

《军用自主人工智能系统的治理与安全》

相关资讯

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

38+阅读 · 2023年4月13日

《多域作战环境下的军事决策过程》

《多域作战环境下的军事决策过程》

专知

113+阅读 · 2023年4月12日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

50+阅读 · 2022年11月16日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

Github项目推荐 | Manopth - PyTorch的MANO层，生成手部网格作为可微分层

Github项目推荐 | Manopth - PyTorch的MANO层，生成手部网格作为可微分层

AI研习社

10+阅读 · 2019年3月20日

Github 项目推荐 | 论文的代码实现：可变形ConvNets v2的PyTorch实现

Github 项目推荐 | 论文的代码实现：可变形ConvNets v2的PyTorch实现

AI研习社

22+阅读 · 2019年1月10日

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

人工智能前沿讲习班

27+阅读 · 2018年12月13日

每日论文 | 深度卷积高斯过程；用多任务弱监督训练复杂模型；在时序数据中发现新连接类型

每日论文 | 深度卷积高斯过程；用多任务弱监督训练复杂模型；在时序数据中发现新连接类型

论智

12+阅读 · 2018年10月10日

【干货】终极入门马尔可夫网络 (Markov Networks)——概率图模型

【干货】终极入门马尔可夫网络 (Markov Networks)——概率图模型

机器学习研究会

31+阅读 · 2018年1月7日

相关论文

Optimization-Based Robust Permissive Synthesis for Interval MDPs

Arxiv

0+阅读 · 3月16日

Non-Rectangular Average-Reward Robust MDPs: Optimal Policies and Their Transient Values

Arxiv

0+阅读 · 3月10日

Data-driven robust Markov decision processes on Borel spaces: performance guarantees via an axiomatic approach

Arxiv

0+阅读 · 3月9日

Near-Optimal Sample Complexity for Online Constrained MDPs

Arxiv

0+阅读 · 2月16日

Multi-Environment MDPs with Prior and Universal Semantics

Arxiv

0+阅读 · 2月11日

Finite-State Controllers for (Hidden-Model) POMDPs using Deep Reinforcement Learning

Arxiv

0+阅读 · 2月9日

Efficient Policy Optimization in Robust Constrained MDPs with Iteration Complexity Guarantees

Arxiv

0+阅读 · 2月7日

Efficient Algorithms for Robust Markov Decision Processes with $s$-Rectangular Ambiguity Sets

Arxiv

0+阅读 · 2月5日

Data- and Variance-dependent Regret Bounds for Online Tabular MDPs

Arxiv

0+阅读 · 2月2日

Learning Sequential Decisions from Multiple Sources via Group-Robust Markov Decision Processes

Arxiv

0+阅读 · 2月2日

相关基金

带有随机干扰的非齐次马尔科夫跳变系统的鲁棒滤波研究

国家自然科学基金

0+阅读 · 2015年12月31日

连续时间马氏决策过程受约束问题的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于不确定性计算的鲁棒风险评估关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

非线性切换系统在线鲁棒近似优化控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

布尔可满足性算法和单调布尔函数的复杂性

国家自然科学基金

0+阅读 · 2015年12月31日

基于离散化Lyapunov-Krasovskii泛函方法的时滞Markov跳变系统分析与综合

国家自然科学基金

0+阅读 · 2015年12月31日

不确定环境下具有稀疏特征的鲁棒投资组合选择问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于马尔科夫链的线性系统求解问题的高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

逐段决定马氏过程的测度值生成元与可加泛函

国家自然科学基金

0+阅读 · 2014年12月31日

超线性增长条件下的混杂型随机时滞微分方程

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员