Entropic Risk-Aware Monte Carlo Tree Search - 专知论文

会员服务 ·

0

风险度量 · 度量 · 搜索 · 算法 · 蒙特卡洛 ·

Entropic Risk-Aware Monte Carlo Tree Search

翻译：基于熵风险度量的蒙特卡洛树搜索

Pedro P. Santos,Jacopo Silvestrin,Alberto Sardinha,Francisco S. Melo

We propose a provably correct Monte Carlo tree search (MCTS) algorithm for solving \textit{risk-aware} Markov decision processes (MDPs) with \textit{entropic risk measure} (ERM) objectives. We provide a \textit{non-asymptotic} analysis of our proposed algorithm, showing that the algorithm: (i) is \textit{correct} in the sense that the empirical ERM obtained at the root node converges to the optimal ERM; and (ii) enjoys \textit{polynomial regret concentration}. Our algorithm successfully exploits the dynamic programming formulations for solving risk-aware MDPs with ERM objectives introduced by previous works in the context of an upper confidence bound-based tree search algorithm. Finally, we provide a set of illustrative experiments comparing our risk-aware MCTS method against relevant baselines.

翻译：我们提出了一种可证明正确的蒙特卡洛树搜索算法，用于求解具有熵风险度量目标的**风险感知**马尔可夫决策过程。我们对所提算法进行了**非渐近**分析，表明该算法：（i）在根节点获得的经验熵风险度量收敛于最优熵风险度量的意义上是**正确**的；（ii）具有**多项式后悔集中性**。我们的算法成功利用了先前工作中提出的、用于求解具有熵风险度量目标的风险感知马尔可夫决策过程的动态规划公式，并将其应用于基于上置信界树搜索算法的框架中。最后，我们提供了一组对比实验，将我们的风险感知蒙特卡洛树搜索方法与相关基线进行了比较。

0

相关内容

风险度量

美陆军研究报告《基于熵引导的深度神经网络加速收敛与性能提升方法》最新26页

美陆军研究报告《基于熵引导的深度神经网络加速收敛与性能提升方法》最新26页

专知会员服务

16+阅读 · 2025年7月3日

《基于随机森林的Q学习算法：迈向可解释人工智能》最新90页

《基于随机森林的Q学习算法：迈向可解释人工智能》最新90页

专知会员服务

31+阅读 · 2025年3月15日

大模型安全性，Google DeepMind Nicholas Carlini，附191页slides与视频

大模型安全性，Google DeepMind Nicholas Carlini，附191页slides与视频

专知会员服务

31+阅读 · 2024年7月15日

【AAAI2022】注意力机制的快速蒙特卡罗近似

【AAAI2022】注意力机制的快速蒙特卡罗近似

专知会员服务

20+阅读 · 2022年2月5日

【LUND博士论文】基于模拟的推断:从近似贝叶斯计算和粒子方法到神经密度估计，223页pdf

【LUND博士论文】基于模拟的推断:从近似贝叶斯计算和粒子方法到神经密度估计，223页pdf

专知会员服务

26+阅读 · 2021年10月8日

【DeepMind教程】蒙特卡罗树搜索，60页ppt

专知会员服务

60+阅读 · 2021年4月7日

谷歌推出量子机器学习框架TFQ-TensorFlow Quantum，一个可训练量子模型的机器学习框架

谷歌推出量子机器学习框架TFQ-TensorFlow Quantum，一个可训练量子模型的机器学习框架

专知会员服务

34+阅读 · 2020年3月10日

【SIGMOD2020-CMU】在内存中搜索树的顺序保持键压缩，Order-Preserving Key Compression for In-Memory Search Trees

【SIGMOD2020-CMU】在内存中搜索树的顺序保持键压缩，Order-Preserving Key Compression for In-Memory Search Trees

专知会员服务

15+阅读 · 2020年3月7日

【清华大学】自动微分蒙特卡洛，理论与应用，Automatic Differentiable Monte Carlo: Theory and Application (附pdf）

专知会员服务

28+阅读 · 2019年11月23日

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

专知会员服务

13+阅读 · 2019年11月17日

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

专知

21+阅读 · 2020年5月30日

可解释AI(XAI)工具集—DrWhy

可解释AI(XAI)工具集—DrWhy

专知

25+阅读 · 2019年6月4日

一份来自蒙特利尔AI的人工智能技术简明指南清单（附pdf下载）

一份来自蒙特利尔AI的人工智能技术简明指南清单（附pdf下载）

专知

13+阅读 · 2019年4月11日

不用数学讲清马尔可夫链蒙特卡洛方法？

不用数学讲清马尔可夫链蒙特卡洛方法？

算法与数学之美

16+阅读 · 2018年8月8日

2018年6月13日精彩内容推荐（蒙特卡洛方法教程、2018深度学习视频行为识别概述等）

2018年6月13日精彩内容推荐（蒙特卡洛方法教程、2018深度学习视频行为识别概述等）

Chatbots技术与产品

42+阅读 · 2018年6月13日

图深度学习(GraphDL)，下一个人工智能算法热点？一文了解最新GDL相关文章

图深度学习(GraphDL)，下一个人工智能算法热点？一文了解最新GDL相关文章

专知

18+阅读 · 2018年6月10日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

一份数学小白也能读懂的「马尔可夫链蒙特卡洛方法」入门指南

一份数学小白也能读懂的「马尔可夫链蒙特卡洛方法」入门指南

算法与数学之美

10+阅读 · 2018年1月4日

不用数学也能讲清贝叶斯理论的马尔可夫链蒙特卡洛方法？这篇文章做到了

不用数学也能讲清贝叶斯理论的马尔可夫链蒙特卡洛方法？这篇文章做到了

AI100

11+阅读 · 2017年12月24日

最新｜深度离散哈希算法，可用于图像检索！

最新｜深度离散哈希算法，可用于图像检索！

全球人工智能

14+阅读 · 2017年12月15日

树上生灭过程收敛速度及p-Laplacian特征值估计

国家自然科学基金

0+阅读 · 2015年12月31日

基于高效蒙特卡罗策略的最优化方法及应用研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于不确定性计算的鲁棒风险评估关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

随机波动率模型下金融衍生产品定价中的条件蒙特卡罗加速方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于稀疏理论和图Laplacian矩阵的图像去噪理论与方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

图像复原中非凸稀疏优化问题的快速算法

国家自然科学基金

0+阅读 · 2015年12月31日

光滑函数类的熵数估计

国家自然科学基金

0+阅读 · 2015年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

考虑不确定性和方向性的结构随机极值和疲劳风致响应及抗风可靠性评价理论

国家自然科学基金

0+阅读 · 2014年12月31日

一类极大加和逆优化问题的研究

国家自然科学基金

0+阅读 · 2014年12月31日

Diffusive Scaling Limits of Forward Event-Chain Monte Carlo: Provably Efficient Exploration with Partial Refreshment

Arxiv

0+阅读 · 2月19日

Twice Sequential Monte Carlo for Tree Search

Arxiv

0+阅读 · 2月9日

Empirical-MCTS: Continuous Agent Evolution via Dual-Experience Monte Carlo Tree Search

Arxiv

0+阅读 · 2月4日

Multi-Level Monte Carlo Training of Neural Operators

Arxiv

0+阅读 · 2月3日

Entropic Mirror Monte Carlo

Arxiv

0+阅读 · 2月3日

An Efficient Algorithm for Thresholding Monte Carlo Tree Search

Arxiv

0+阅读 · 1月30日

Quantum-Inspired Episode Selection for Monte Carlo Reinforcement Learning via QUBO Optimization

Arxiv

0+阅读 · 1月24日

Refined Gradient-Based Temperature Optimization for the Replica-Exchange Monte-Carlo Method

Arxiv

0+阅读 · 1月20日

Multi-level Monte Carlo Dropout for Efficient Uncertainty Quantification

Arxiv

0+阅读 · 1月19日

Provably Safe Reinforcement Learning for Stochastic Reach-Avoid Problems with Entropy Regularization

Arxiv

0+阅读 · 1月15日

VIP会员

文章信息

相关主题

最新内容

《将量子技术集成到移动军事系统与战术作战中心框架》

《将量子技术集成到移动军事系统与战术作战中心框架》

专知会员服务

0+阅读 · 9分钟前

《美国战争部2027财年军事人员预算》

《美国战争部2027财年军事人员预算》

专知会员服务

0+阅读 · 18分钟前

伊朗战争中的电子战

伊朗战争中的电子战

专知会员服务

2+阅读 · 58分钟前

大语言模型平台在国防情报应用中的对比

大语言模型平台在国防情报应用中的对比

专知会员服务

4+阅读 · 今天3:12

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

专知会员服务

5+阅读 · 今天3:00

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

专知会员服务

3+阅读 · 今天2:56

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

专知会员服务

4+阅读 · 今天2:44

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

专知会员服务

7+阅读 · 今天2:37

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

专知会员服务

5+阅读 · 今天2:22

美海军“超配项目”

美海军“超配项目”

专知会员服务

5+阅读 · 今天2:13

《美陆军条例：陆军指挥政策（2026版）》

《美陆军条例：陆军指挥政策（2026版）》

专知会员服务

10+阅读 · 4月21日

《提升美军全域城市作战训练最佳实践的案例研究》366页

《提升美军全域城市作战训练最佳实践的案例研究》366页

专知会员服务

13+阅读 · 4月21日

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

7+阅读 · 4月21日

美海军数字作战负责人：如何利用数据快速生成战斗力

美海军数字作战负责人：如何利用数据快速生成战斗力

专知会员服务

9+阅读 · 4月21日

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

11+阅读 · 4月20日

相关VIP内容

美陆军研究报告《基于熵引导的深度神经网络加速收敛与性能提升方法》最新26页

美陆军研究报告《基于熵引导的深度神经网络加速收敛与性能提升方法》最新26页

专知会员服务

16+阅读 · 2025年7月3日

《基于随机森林的Q学习算法：迈向可解释人工智能》最新90页

《基于随机森林的Q学习算法：迈向可解释人工智能》最新90页

专知会员服务

31+阅读 · 2025年3月15日

大模型安全性，Google DeepMind Nicholas Carlini，附191页slides与视频

大模型安全性，Google DeepMind Nicholas Carlini，附191页slides与视频

专知会员服务

31+阅读 · 2024年7月15日

【AAAI2022】注意力机制的快速蒙特卡罗近似

【AAAI2022】注意力机制的快速蒙特卡罗近似

专知会员服务

20+阅读 · 2022年2月5日

【LUND博士论文】基于模拟的推断:从近似贝叶斯计算和粒子方法到神经密度估计，223页pdf

【LUND博士论文】基于模拟的推断:从近似贝叶斯计算和粒子方法到神经密度估计，223页pdf

专知会员服务

26+阅读 · 2021年10月8日

【DeepMind教程】蒙特卡罗树搜索，60页ppt

专知会员服务

60+阅读 · 2021年4月7日

谷歌推出量子机器学习框架TFQ-TensorFlow Quantum，一个可训练量子模型的机器学习框架

谷歌推出量子机器学习框架TFQ-TensorFlow Quantum，一个可训练量子模型的机器学习框架

专知会员服务

34+阅读 · 2020年3月10日

【SIGMOD2020-CMU】在内存中搜索树的顺序保持键压缩，Order-Preserving Key Compression for In-Memory Search Trees

【SIGMOD2020-CMU】在内存中搜索树的顺序保持键压缩，Order-Preserving Key Compression for In-Memory Search Trees

专知会员服务

15+阅读 · 2020年3月7日

【清华大学】自动微分蒙特卡洛，理论与应用，Automatic Differentiable Monte Carlo: Theory and Application (附pdf）

专知会员服务

28+阅读 · 2019年11月23日

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

专知会员服务

13+阅读 · 2019年11月17日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型平台在国防情报应用中的对比

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

伊朗战争中的电子战

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

相关资讯

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

专知

21+阅读 · 2020年5月30日

可解释AI(XAI)工具集—DrWhy

可解释AI(XAI)工具集—DrWhy

专知

25+阅读 · 2019年6月4日

一份来自蒙特利尔AI的人工智能技术简明指南清单（附pdf下载）

一份来自蒙特利尔AI的人工智能技术简明指南清单（附pdf下载）

专知

13+阅读 · 2019年4月11日

不用数学讲清马尔可夫链蒙特卡洛方法？

不用数学讲清马尔可夫链蒙特卡洛方法？

算法与数学之美

16+阅读 · 2018年8月8日

2018年6月13日精彩内容推荐（蒙特卡洛方法教程、2018深度学习视频行为识别概述等）

2018年6月13日精彩内容推荐（蒙特卡洛方法教程、2018深度学习视频行为识别概述等）

Chatbots技术与产品

42+阅读 · 2018年6月13日

图深度学习(GraphDL)，下一个人工智能算法热点？一文了解最新GDL相关文章

图深度学习(GraphDL)，下一个人工智能算法热点？一文了解最新GDL相关文章

专知

18+阅读 · 2018年6月10日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

一份数学小白也能读懂的「马尔可夫链蒙特卡洛方法」入门指南

一份数学小白也能读懂的「马尔可夫链蒙特卡洛方法」入门指南

算法与数学之美

10+阅读 · 2018年1月4日

不用数学也能讲清贝叶斯理论的马尔可夫链蒙特卡洛方法？这篇文章做到了

不用数学也能讲清贝叶斯理论的马尔可夫链蒙特卡洛方法？这篇文章做到了

AI100

11+阅读 · 2017年12月24日

最新｜深度离散哈希算法，可用于图像检索！

最新｜深度离散哈希算法，可用于图像检索！

全球人工智能

14+阅读 · 2017年12月15日

相关论文

Diffusive Scaling Limits of Forward Event-Chain Monte Carlo: Provably Efficient Exploration with Partial Refreshment

Arxiv

0+阅读 · 2月19日

Twice Sequential Monte Carlo for Tree Search

Arxiv

0+阅读 · 2月9日

Empirical-MCTS: Continuous Agent Evolution via Dual-Experience Monte Carlo Tree Search

Arxiv

0+阅读 · 2月4日

Multi-Level Monte Carlo Training of Neural Operators

Arxiv

0+阅读 · 2月3日

Entropic Mirror Monte Carlo

Arxiv

0+阅读 · 2月3日

An Efficient Algorithm for Thresholding Monte Carlo Tree Search

Arxiv

0+阅读 · 1月30日

Quantum-Inspired Episode Selection for Monte Carlo Reinforcement Learning via QUBO Optimization

Arxiv

0+阅读 · 1月24日

Refined Gradient-Based Temperature Optimization for the Replica-Exchange Monte-Carlo Method

Arxiv

0+阅读 · 1月20日

Multi-level Monte Carlo Dropout for Efficient Uncertainty Quantification

Arxiv

0+阅读 · 1月19日

Provably Safe Reinforcement Learning for Stochastic Reach-Avoid Problems with Entropy Regularization

Arxiv

0+阅读 · 1月15日

相关基金

树上生灭过程收敛速度及p-Laplacian特征值估计

国家自然科学基金

0+阅读 · 2015年12月31日

基于高效蒙特卡罗策略的最优化方法及应用研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于不确定性计算的鲁棒风险评估关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

随机波动率模型下金融衍生产品定价中的条件蒙特卡罗加速方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于稀疏理论和图Laplacian矩阵的图像去噪理论与方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

图像复原中非凸稀疏优化问题的快速算法

国家自然科学基金

0+阅读 · 2015年12月31日

光滑函数类的熵数估计

国家自然科学基金

0+阅读 · 2015年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

考虑不确定性和方向性的结构随机极值和疲劳风致响应及抗风可靠性评价理论

国家自然科学基金

0+阅读 · 2014年12月31日

一类极大加和逆优化问题的研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员