We provide faster deterministic and randomized algorithms for exactly solving discounted Markov Decision Processes (DMDPs). We obtain our results by efficiently reducing computing optimal values and policies in DMDPs to the easier tasks of policy evaluation and computing approximately optimal values in DMDPs. We provide both a straightforward deterministic reduction and a more efficient randomized variant that, together with advances in approximately solving DMDPs, yield our results.


翻译:我们提出了更快的确定性和随机化算法,用于精确求解折扣马尔可夫决策过程(DMDPs)。通过将DMDPs中最优值与策略的计算高效简化为策略评估和近似最优值计算等更简单的任务,我们获得了这些结果。我们同时提供了一种直接的确定性归约方法和一种更高效的随机化变体,结合DMDPs近似求解的最新进展,最终实现了上述成果。

0
下载
关闭预览

相关内容

马尔可夫决策过程(MDP)提供了一个数学框架,用于在结果部分随机且部分受决策者控制的情况下对决策建模。 MDP可用于研究通过动态编程和强化学习解决的各种优化问题。 MDP至少早在1950年代就已为人所知(参见)。 马尔可夫决策过程的研究核心是罗纳德·霍华德(Ronald A. Howard)于1960年出版的《动态编程和马尔可夫过程》一书。 它们被广泛用于各种学科,包括机器人技术,自动控制,经济学和制造。 更精确地,马尔可夫决策过程是离散的时间随机控制过程。 在每个时间步骤中,流程都处于某种状态,决策者可以选择该状态下可用的任何操作。 该过程在下一时间步响应,随机进入新状态,并给予决策者相应的奖励。 流程进入新状态的可能性受所选动作的影响。 具体而言,它由状态转换函数给出。 因此,下一个状态取决于当前状态和决策者的动作。 但是给定和,它有条件地独立于所有先前的状态和动作; 换句话说,MDP进程的状态转换满足Markov属性。 马尔可夫决策过程是马尔可夫链的扩展。 区别在于增加了动作(允许选择)和奖励(给予动机)。 相反,如果每个状态仅存在一个动作(例如“等待”)并且所有奖励都相同(例如“零”),则马尔可夫决策过程将简化为马尔可夫链。
《分布式多智能体强化学习策略的可解释性研究》
专知会员服务
29+阅读 · 2025年11月17日
【NeurIPS2023】强化学习中的概率推理:正确的方法
专知会员服务
28+阅读 · 2023年11月25日
【干货书】凸随机优化,320页pdf
专知会员服务
94+阅读 · 2022年9月16日
【干货书】优化与学习的随机梯度技术,238页pdf
专知会员服务
54+阅读 · 2021年11月22日
【干货书】凸随机优化,320页pdf
专知
12+阅读 · 2022年9月16日
【干货书】贝叶斯推断随机过程,449页pdf
专知
31+阅读 · 2020年8月27日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月12日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
专知会员服务
4+阅读 · 今天7:28
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
8+阅读 · 6月15日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员