Robust Markov decision processes (RMDPs) extend standard Markov decision processes (MDPs) to account for uncertainty in the transition probabilities. RMDPs have an uncertainty set that defines a set of possible transition functions, each of which induces a standard MDP. The natural objective in an RMDP is to optimize the discounted cumulative reward under the worst-case transition function in the uncertainty set. We study the complexity of the associated threshold problem for RMDPs with polytopic uncertainty sets in halfspace representation. Previous results focused on approximating the optimum or restricted attention to specific subclasses of RMDPs, such as interval MDPs or $L_\infty$-RMDPs. Our contributions are threefold: (1) For (s,a)-rectangular RMDPs, we prove that robust policy evaluation is in P via robust linear programming, and that the threshold problem is in NP. As a corollary, robust policy iteration is a polynomial-time algorithm for these RMDPs when the discount factor is fixed. (2) For $s$-rectangular RMDPs, we show that the threshold problem is in PSPACE via the first-order theory of the reals. (3) We establish lower bounds by reducing both parity games and bisimulation metrics between MDP states to the RMDP threshold problem. A polynomial-time algorithm for the threshold problem would resolve the long-standing open question of whether parity games can be solved in polynomial time. The reduction from bisimulation metrics also yields a practical benefit: it allows us to apply robust policy iteration as a more efficient alternative to the standard fixed-point iteration, as our empirical evaluation demonstrates.


翻译:暂无翻译

0
下载
关闭预览

相关内容

《理解大语言模型在军事战术任务规划中的局限性》
专知会员服务
51+阅读 · 2025年12月30日
基于KG+LLM的联合作战计划智能生成方法
专知会员服务
43+阅读 · 2025年1月9日
《快速决策同步过程:规划工具》
专知会员服务
46+阅读 · 2024年12月5日
《军事决策过程:组织和实施规划》美陆军最新156页
专知会员服务
81+阅读 · 2024年2月5日
【2023新书】决策支持系统和自动谈判, 240页pdf
专知会员服务
48+阅读 · 2023年6月24日
《多域作战环境下的军事决策过程》
专知
113+阅读 · 2023年4月12日
【Manning新书】MLOps工程规模化,344页pdf
专知
24+阅读 · 2022年5月4日
论文浅尝 | GMNN: Graph Markov Neural Networks
开放知识图谱
20+阅读 · 2020年2月14日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2013年12月31日
Arxiv
0+阅读 · 4月20日
VIP会员
最新内容
DeepSeek 版Claude Code,免费小白安装教程来了!
专知会员服务
7+阅读 · 5月5日
《美空军条令出版物 2-0:情报(2026版)》
专知会员服务
12+阅读 · 5月5日
帕兰提尔 Gotham:一个游戏规则改变器
专知会员服务
6+阅读 · 5月5日
【综述】 机器人学习中的世界模型:全面综述
专知会员服务
11+阅读 · 5月4日
伊朗的导弹-无人机行动及其对美国威慑的影响
相关VIP内容
《理解大语言模型在军事战术任务规划中的局限性》
专知会员服务
51+阅读 · 2025年12月30日
基于KG+LLM的联合作战计划智能生成方法
专知会员服务
43+阅读 · 2025年1月9日
《快速决策同步过程:规划工具》
专知会员服务
46+阅读 · 2024年12月5日
《军事决策过程:组织和实施规划》美陆军最新156页
专知会员服务
81+阅读 · 2024年2月5日
【2023新书】决策支持系统和自动谈判, 240页pdf
专知会员服务
48+阅读 · 2023年6月24日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员