Interval Markov Decision Processes (IMDPs) are finite-state uncertain Markov models, where the transition probabilities belong to intervals. Recently, there has been a surge of research on employing IMDPs as abstractions of stochastic systems for control synthesis. However, due to the absence of algorithms for synthesis over IMDPs with continuous action-spaces, the action-space is assumed discrete a-priori, which is a restrictive assumption for many applications. Motivated by this, we introduce continuous-action IMDPs (caIMDPs), where the bounds on transition probabilities are functions of the action variables, and study value iteration for maximizing expected cumulative rewards. Specifically, we decompose the max-min problem associated to value iteration to $|\mathcal{Q}|$ max problems, where $|\mathcal{Q}|$ is the number of states of the caIMDP. Then, exploiting the simple form of these max problems, we identify cases where value iteration over caIMDPs can be solved efficiently (e.g., with linear or convex programming). We also gain other interesting insights: e.g., in certain cases where the action set $\mathcal{A}$ is a polytope, synthesis over a discrete-action IMDP, where the actions are the vertices of $\mathcal{A}$, is sufficient for optimality. We demonstrate our results on a numerical example. Finally, we include a short discussion on employing caIMDPs as abstractions for control synthesis.


翻译:区间马尔可夫决策过程(IMDPs)是具有有限状态的不确定马尔可夫模型,其转移概率属于区间。近期,利用IMDPs作为随机系统抽象以进行控制综合的研究激增。然而,由于缺乏针对连续动作空间IMDPs的综合算法,动作空间被先验地假定为离散的,这对许多应用而言是一种限制性假设。受此启发,我们引入了连续动作IMDPs(caIMDPs),其中转移概率的边界是动作变量的函数,并研究了用于最大化期望累积奖励的值迭代方法。具体而言,我们将值迭代相关的最大-最小问题分解为$|\mathcal{Q}|$个最大问题,其中$|\mathcal{Q}|$是caIMDP的状态数。然后,利用这些最大问题的简单形式,我们确定了caIMDPs上的值迭代能够高效求解(例如,通过线性或凸规划)的情形。我们还获得了其他有趣的见解:例如,在某些情况下,当动作集$\mathcal{A}$是多面体时,基于离散动作IMDP(其动作为$\mathcal{A}$的顶点)的综合足以达到最优性。我们通过数值示例展示了结果。最后,我们简要讨论了将caIMDPs用作控制综合的抽象。

0
下载
关闭预览

相关内容

【干货书】贝叶斯推理决策,195页pdf
专知会员服务
94+阅读 · 2021年12月11日
机器学习组合优化
专知会员服务
111+阅读 · 2021年2月16日
专知会员服务
52+阅读 · 2020年12月14日
【干货书】机器学习速查手册,135页pdf
专知会员服务
128+阅读 · 2020年11月20日
【干货书】贝叶斯推断随机过程,449页pdf
专知会员服务
156+阅读 · 2020年8月27日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
生成扩散模型漫谈:一般框架之ODE篇
PaperWeekly
1+阅读 · 2022年9月1日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
基于 Carsim 2016 和 Simulink的无人车运动控制联合仿真(三)
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年5月25日
Arxiv
85+阅读 · 2022年7月16日
VIP会员
最新内容
无人机自主控制与人工智能:系统性综述
专知会员服务
10+阅读 · 今天7:25
巡飞弹与反无人机系统——现代战场的两大支柱
专知会员服务
3+阅读 · 今天6:54
《打造“黄金舰队”》57页报告
专知会员服务
3+阅读 · 今天6:52
《北约数字教官网络发展路径》128页报告
专知会员服务
2+阅读 · 今天6:33
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
7+阅读 · 6月25日
网状网络及其在军事领域的运用
专知会员服务
7+阅读 · 6月25日
无美国参与的欧洲战争方式(万字长文)
专知会员服务
8+阅读 · 6月25日
《国防领域敏感性分析白皮书》
专知会员服务
9+阅读 · 6月25日
综述 | 从问答到任务完成:Agent系统与Harness设计
专知会员服务
10+阅读 · 6月24日
Agentic RL:框架、实践与长程智能体训练
专知会员服务
10+阅读 · 6月24日
相关资讯
生成扩散模型漫谈:一般框架之ODE篇
PaperWeekly
1+阅读 · 2022年9月1日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
基于 Carsim 2016 和 Simulink的无人车运动控制联合仿真(三)
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员