We propose a provably correct Monte Carlo tree search (MCTS) algorithm for solving risk-aware Markov decision processes (MDPs) with entropic risk measure (ERM) objectives. We provide a non-asymptotic analysis of our proposed algorithm, showing that the algorithm: (i) is correct in the sense that the empirical ERM obtained at the root node converges to the optimal ERM; and (ii) enjoys polynomial regret concentration. Our algorithm successfully exploits the dynamic programming formulations for solving risk-aware MDPs with ERM objectives introduced by previous works in the context of an upper confidence bound-based tree search algorithm. Finally, we provide a set of illustrative experiments comparing our risk-aware MCTS method against relevant baselines.


翻译:我们提出了一种可证明正确的蒙特卡洛树搜索算法,用于求解具有熵风险度量目标的马尔可夫决策过程。我们对所提出的算法进行了非渐近分析,表明该算法:(i)在根节点获得的经验熵风险度量收敛于最优熵风险度量的意义上是正确的;(ii)具有多项式遗憾集中性。我们的算法成功地利用了先前工作中引入的动态规划公式,在基于上置信界的树搜索算法框架内求解具有熵风险度量目标的马尔可夫决策过程。最后,我们通过一系列对比实验,将我们的风险感知蒙特卡洛树搜索方法与相关基线进行了比较。

0
下载
关闭预览

相关内容

【AAAI2022】注意力机制的快速蒙特卡罗近似
专知会员服务
20+阅读 · 2022年2月5日
【牛津大学】多级蒙特卡洛方法,70页pdf
专知会员服务
61+阅读 · 2022年2月3日
专知会员服务
60+阅读 · 2021年4月7日
机器学习算法集锦:从贝叶斯到深度学习及各自优缺点
人工智能学家
11+阅读 · 2019年2月15日
不用数学讲清马尔可夫链蒙特卡洛方法?
算法与数学之美
16+阅读 · 2018年8月8日
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月3日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员