Planning in entropy-regularized Markov decision processes and games - 专知论文

会员服务 ·

0

正则化 · 博弈 · 马尔可夫决策过程 · 样本 · 样本复杂度 ·

Planning in entropy-regularized Markov decision processes and games

翻译：熵正则化马尔可夫决策过程与博弈中的规划

Jean-Bastien Grill,Omar Darwiche Domingues,Pierre Ménard,Rémi Munos,Michal Valko

from arxiv, NeurIPS 2019

We propose SmoothCruiser, a new planning algorithm for estimating the value function in entropy-regularized Markov decision processes and two-player games, given a generative model of the environment. SmoothCruiser makes use of the smoothness of the Bellman operator promoted by the regularization to achieve problem-independent sample complexity of order O~(1/epsilon^4) for a desired accuracy epsilon, whereas for non-regularized settings there are no known algorithms with guaranteed polynomial sample complexity in the worst case.

翻译：我们提出SmoothCruiser，这是一种新型规划算法，用于在给定环境生成模型的情况下估计熵正则化马尔可夫决策过程和双人博弈中的值函数。SmoothCruiser利用正则化所促进的贝尔曼算子的光滑性，实现了与问题无关的样本复杂度阶数O~(1/ε^4)（其中ε为期望精度），而在非正则化设定下，尚无已知算法能在最坏情况下保证多项式样本复杂度。

0

相关内容

正则化

在数学，统计学和计算机科学中，尤其是在机器学习和逆问题中，正则化是添加信息以解决不适定问题或防止过度拟合的过程。正则化适用于不适定的优化问题中的目标函数。

《多智能体系统中的边界定义可容许性：贝尔曼共约、全局安全与分布式最优性》

《多智能体系统中的边界定义可容许性：贝尔曼共约、全局安全与分布式最优性》

专知会员服务

18+阅读 · 2月14日

《基于Transformer的智能体的战术决策解释》

《基于Transformer的智能体的战术决策解释》

专知会员服务

49+阅读 · 2025年12月28日

《战术决策智能：大语言模型驱动的动态武器目标分配》

《战术决策智能：大语言模型驱动的动态武器目标分配》

专知会员服务

59+阅读 · 2025年11月18日

PlanGenLLMs：大型语言模型规划能力的最新综述

PlanGenLLMs：大型语言模型规划能力的最新综述

专知会员服务

34+阅读 · 2025年5月18日

【CMU博士论文】不完全信息博弈中的博弈决策学习动力学、均衡计算和复杂性，358页pdf

【CMU博士论文】不完全信息博弈中的博弈决策学习动力学、均衡计算和复杂性，358页pdf

专知会员服务

64+阅读 · 2023年6月16日

《基于博弈论的多无人机最优协同路径规划》悉尼科技大学等2022最新论文

《基于博弈论的多无人机最优协同路径规划》悉尼科技大学等2022最新论文

专知会员服务

109+阅读 · 2022年10月28日

《分布式部分可观察马尔科夫决策过程中机器智能体的分解信念》美国空军技术学院2022最新论文

《分布式部分可观察马尔科夫决策过程中机器智能体的分解信念》美国空军技术学院2022最新论文

专知会员服务

27+阅读 · 2022年10月18日

【硬核书】规划算法 (Planning Algorithm)，1023页pdf，Steven M. Illinois大学

【硬核书】规划算法 (Planning Algorithm)，1023页pdf，Steven M. Illinois大学

专知会员服务

167+阅读 · 2022年4月10日

【MIT】对抗鲁棒性的流形正则化，Manifold Regularization for Adversarial Robustness

【MIT】对抗鲁棒性的流形正则化，Manifold Regularization for Adversarial Robustness

专知会员服务

28+阅读 · 2020年3月11日

【清华大学】自动微分蒙特卡洛，理论与应用，Automatic Differentiable Monte Carlo: Theory and Application (附pdf）

专知会员服务

28+阅读 · 2019年11月23日

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

38+阅读 · 2023年4月13日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

52+阅读 · 2022年11月16日

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

专知

24+阅读 · 2022年9月25日

【硬核书】规划算法 (Planning Algorithm)，1023页pdf，Steven M. Illinois大学

【硬核书】规划算法 (Planning Algorithm)，1023页pdf，Steven M. Illinois大学

专知

12+阅读 · 2022年4月10日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

【干货】终极入门马尔可夫网络 (Markov Networks)——概率图模型

【干货】终极入门马尔可夫网络 (Markov Networks)——概率图模型

机器学习研究会

31+阅读 · 2018年1月7日

一份数学小白也能读懂的「马尔可夫链蒙特卡洛方法」入门指南

一份数学小白也能读懂的「马尔可夫链蒙特卡洛方法」入门指南

算法与数学之美

10+阅读 · 2018年1月4日

不用数学也能讲清贝叶斯理论的马尔可夫链蒙特卡洛方法？这篇文章做到了

不用数学也能讲清贝叶斯理论的马尔可夫链蒙特卡洛方法？这篇文章做到了

AI100

11+阅读 · 2017年12月24日

【AlphaGo核心技术-教程学习笔记02】深度强化学习第二讲马尔科夫决策过程

【AlphaGo核心技术-教程学习笔记02】深度强化学习第二讲马尔科夫决策过程

专知

10+阅读 · 2017年10月21日

马尔科夫跳跃正系统的稳定分析与控制综合

国家自然科学基金

0+阅读 · 2015年12月31日

随机Kolmogorov型系统及其数值解的渐近性质分析

国家自然科学基金

0+阅读 · 2015年12月31日

非凸稀疏正则化模型与算法的研究

国家自然科学基金

3+阅读 · 2015年12月31日

随机偏微分方程多辛几何算法及不确定性量化

国家自然科学基金

0+阅读 · 2015年12月31日

动态Gr？bner 基与GVW算法

国家自然科学基金

0+阅读 · 2014年12月31日

广义单调（增生）算子的零点逼近与分裂可行问题的正则化研究

国家自然科学基金

0+阅读 · 2014年12月31日

失效控制下石化企业批量生产计划与设备维修协同决策模型

国家自然科学基金

0+阅读 · 2014年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

基于中智集的模糊多属性决策理论、方法与应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

分数阶扩散方程反向问题的正则化理论与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

On the Complexity of Robust Markov Decision Processes and Bisimulation Metrics

Arxiv

0+阅读 · 4月29日

Policy Testing in Markov Decision Processes

Arxiv

0+阅读 · 4月20日

Selecting Normal-Form Nash Equilibria in Extensive-Form Games via a Sequence-Form Variant of Logit Quantal Response Equilibrium

Arxiv

0+阅读 · 4月18日

Policy Split: Incentivizing Dual-Mode Exploration in LLM Reinforcement with Dual-Mode Entropy Regularization

Arxiv

0+阅读 · 4月13日

On the Equivalence of Zero-Sum Games and Conic Programs

Arxiv

0+阅读 · 4月11日

Rethinking Exploration in RLVR: From Entropy Regularization to Refinement via Bidirectional Entropy Modulation

Arxiv

0+阅读 · 4月6日

Piecewise Deterministic Markov Processes for Bayesian Neural Networks

Arxiv

0+阅读 · 4月6日

Computing the Exact Pareto Front in Average-Cost Multi-Objective Markov Decision Processes

Arxiv

0+阅读 · 4月2日

End-to-End Efficient RL for Linear Bellman Complete MDPs with Deterministic Transitions

Arxiv

0+阅读 · 3月24日

Flow Matching Policy with Entropy Regularization

Arxiv

0+阅读 · 3月19日

VIP会员

文章信息

相关主题

马尔可夫决策过程

样本复杂度

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

3+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

4+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

6+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

6+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

22+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

《多智能体系统中的边界定义可容许性：贝尔曼共约、全局安全与分布式最优性》

《多智能体系统中的边界定义可容许性：贝尔曼共约、全局安全与分布式最优性》

专知会员服务

18+阅读 · 2月14日

《基于Transformer的智能体的战术决策解释》

《基于Transformer的智能体的战术决策解释》

专知会员服务

49+阅读 · 2025年12月28日

《战术决策智能：大语言模型驱动的动态武器目标分配》

《战术决策智能：大语言模型驱动的动态武器目标分配》

专知会员服务

59+阅读 · 2025年11月18日

PlanGenLLMs：大型语言模型规划能力的最新综述

PlanGenLLMs：大型语言模型规划能力的最新综述

专知会员服务

34+阅读 · 2025年5月18日

【CMU博士论文】不完全信息博弈中的博弈决策学习动力学、均衡计算和复杂性，358页pdf

【CMU博士论文】不完全信息博弈中的博弈决策学习动力学、均衡计算和复杂性，358页pdf

专知会员服务

64+阅读 · 2023年6月16日

《基于博弈论的多无人机最优协同路径规划》悉尼科技大学等2022最新论文

《基于博弈论的多无人机最优协同路径规划》悉尼科技大学等2022最新论文

专知会员服务

109+阅读 · 2022年10月28日

《分布式部分可观察马尔科夫决策过程中机器智能体的分解信念》美国空军技术学院2022最新论文

《分布式部分可观察马尔科夫决策过程中机器智能体的分解信念》美国空军技术学院2022最新论文

专知会员服务

27+阅读 · 2022年10月18日

【硬核书】规划算法 (Planning Algorithm)，1023页pdf，Steven M. Illinois大学

【硬核书】规划算法 (Planning Algorithm)，1023页pdf，Steven M. Illinois大学

专知会员服务

167+阅读 · 2022年4月10日

【MIT】对抗鲁棒性的流形正则化，Manifold Regularization for Adversarial Robustness

【MIT】对抗鲁棒性的流形正则化，Manifold Regularization for Adversarial Robustness

专知会员服务

28+阅读 · 2020年3月11日

【清华大学】自动微分蒙特卡洛，理论与应用，Automatic Differentiable Monte Carlo: Theory and Application (附pdf）

专知会员服务

28+阅读 · 2019年11月23日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

38+阅读 · 2023年4月13日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

52+阅读 · 2022年11月16日

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

专知

24+阅读 · 2022年9月25日

【硬核书】规划算法 (Planning Algorithm)，1023页pdf，Steven M. Illinois大学

【硬核书】规划算法 (Planning Algorithm)，1023页pdf，Steven M. Illinois大学

专知

12+阅读 · 2022年4月10日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

【干货】终极入门马尔可夫网络 (Markov Networks)——概率图模型

【干货】终极入门马尔可夫网络 (Markov Networks)——概率图模型

机器学习研究会

31+阅读 · 2018年1月7日

一份数学小白也能读懂的「马尔可夫链蒙特卡洛方法」入门指南

一份数学小白也能读懂的「马尔可夫链蒙特卡洛方法」入门指南

算法与数学之美

10+阅读 · 2018年1月4日

不用数学也能讲清贝叶斯理论的马尔可夫链蒙特卡洛方法？这篇文章做到了

不用数学也能讲清贝叶斯理论的马尔可夫链蒙特卡洛方法？这篇文章做到了

AI100

11+阅读 · 2017年12月24日

【AlphaGo核心技术-教程学习笔记02】深度强化学习第二讲马尔科夫决策过程

【AlphaGo核心技术-教程学习笔记02】深度强化学习第二讲马尔科夫决策过程

专知

10+阅读 · 2017年10月21日

相关论文

On the Complexity of Robust Markov Decision Processes and Bisimulation Metrics

Arxiv

0+阅读 · 4月29日

Policy Testing in Markov Decision Processes

Arxiv

0+阅读 · 4月20日

Selecting Normal-Form Nash Equilibria in Extensive-Form Games via a Sequence-Form Variant of Logit Quantal Response Equilibrium

Arxiv

0+阅读 · 4月18日

Policy Split: Incentivizing Dual-Mode Exploration in LLM Reinforcement with Dual-Mode Entropy Regularization

Arxiv

0+阅读 · 4月13日

On the Equivalence of Zero-Sum Games and Conic Programs

Arxiv

0+阅读 · 4月11日

Rethinking Exploration in RLVR: From Entropy Regularization to Refinement via Bidirectional Entropy Modulation

Arxiv

0+阅读 · 4月6日

Piecewise Deterministic Markov Processes for Bayesian Neural Networks

Arxiv

0+阅读 · 4月6日

Computing the Exact Pareto Front in Average-Cost Multi-Objective Markov Decision Processes

Arxiv

0+阅读 · 4月2日

End-to-End Efficient RL for Linear Bellman Complete MDPs with Deterministic Transitions

Arxiv

0+阅读 · 3月24日

Flow Matching Policy with Entropy Regularization

Arxiv

0+阅读 · 3月19日

相关基金

马尔科夫跳跃正系统的稳定分析与控制综合

国家自然科学基金

0+阅读 · 2015年12月31日

随机Kolmogorov型系统及其数值解的渐近性质分析

国家自然科学基金

0+阅读 · 2015年12月31日

非凸稀疏正则化模型与算法的研究

国家自然科学基金

3+阅读 · 2015年12月31日

随机偏微分方程多辛几何算法及不确定性量化

国家自然科学基金

0+阅读 · 2015年12月31日

动态Gr？bner 基与GVW算法

国家自然科学基金

0+阅读 · 2014年12月31日

广义单调（增生）算子的零点逼近与分裂可行问题的正则化研究

国家自然科学基金

0+阅读 · 2014年12月31日

失效控制下石化企业批量生产计划与设备维修协同决策模型

国家自然科学基金

0+阅读 · 2014年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

基于中智集的模糊多属性决策理论、方法与应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

分数阶扩散方程反向问题的正则化理论与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员