Dynamic Programming for Epistemic Uncertainty in Markov Decision Processes - 专知论文

会员服务 ·

0

不确定 · 认知不确定 · 不确定性 · 模糊性 · 马尔可夫决策过程 ·

Dynamic Programming for Epistemic Uncertainty in Markov Decision Processes

翻译：马尔可夫决策过程中认知不确定性的动态规划

Axel Benyamine,Julien Grand-Clément,Marek Petrik,Michael I. Jordan,Alain Durmus

In this paper, we propose a general theory of ambiguity-averse MDPs, which treats the uncertain transition probabilities as random variables and evaluates a policy via a risk measure applied to its random return. This ambiguity-averse MDP framework unifies several models of MDPs with epistemic uncertainty for specific choices of risk measures. We extend the concepts of value functions and Bellman operators to our setting. Based on these objects, we establish the consequences of dynamic programming principles in this framework (existence of stationary policies, value and policy iteration algorithms), and we completely characterize law-invariant risk measures compatible with dynamic programming. Our work draws connections among several variants of MDP models and fully delineates what is possible under the dynamic programming paradigm and which risk measures require leaving it.

翻译：本文提出了一种规避模糊性的MDP通用理论，该理论将不确定的转移概率视为随机变量，并通过应用于随机回报的风险测度来评估策略。这种规避模糊性的MDP框架通过特定风险测度的选择，统一了多种具有认知不确定性的MDP模型。我们将值函数与贝尔曼算子的概念扩展至该框架。基于这些数学对象，我们在此框架中建立了动态规划原理的推论（确定性策略的存在性、值迭代与策略迭代算法），并完整刻画了与动态规划兼容的律不变风险测度。本研究建立了多种MDP变体模型间的理论联系，完整界定了动态规划范式下的可行范畴，并明确了何种风险测度需要突破该范式。

0

相关内容

不确定

【博士论文】基于不确定性的可靠性：现代机器学习中的选择性预测与可信部署

【博士论文】基于不确定性的可靠性：现代机器学习中的选择性预测与可信部署

专知会员服务

24+阅读 · 2025年8月14日

《隐形战斗机选型的不确定性多标准决策分析》

《隐形战斗机选型的不确定性多标准决策分析》

专知会员服务

17+阅读 · 2024年12月11日

【ETHZ博士论文】分布不确定性下的决策，234页pdf

【ETHZ博士论文】分布不确定性下的决策，234页pdf

专知会员服务

49+阅读 · 2024年4月5日

【伯克利博士论文】不确定性序列决策:最优性保证，组合学习，以及在机器人技术和生态学中的应用，256页pdf

【伯克利博士论文】不确定性序列决策:最优性保证，组合学习，以及在机器人技术和生态学中的应用，256页pdf

专知会员服务

38+阅读 · 2023年5月17日

【MIT博士论文】不确定环境下自主系统的风险感知规划与概率预测，166页pdf

【MIT博士论文】不确定环境下自主系统的风险感知规划与概率预测，166页pdf

专知会员服务

38+阅读 · 2023年5月3日

不确定性决策学习，普林斯顿Bartolomeo Stellato讲授，附Slides与视频

不确定性决策学习，普林斯顿Bartolomeo Stellato讲授，附Slides与视频

专知会员服务

49+阅读 · 2023年3月6日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知会员服务

254+阅读 · 2022年11月15日

不确定性下如何决策？弗吉尼亚理工最新《不确定性推理与量化的决策研究综述》，51页pdf阐述信念理论与深度学习结合下的不确定性决策

不确定性下如何决策？弗吉尼亚理工最新《不确定性推理与量化的决策研究综述》，51页pdf阐述信念理论与深度学习结合下的不确定性决策

专知会员服务

108+阅读 · 2022年6月17日

【斯坦福2021新书】决策算法，694页pdf阐述不确定性决策

【斯坦福2021新书】决策算法，694页pdf阐述不确定性决策

专知会员服务

264+阅读 · 2021年1月27日

【AAAI 2019 Tutorial】不确定性下基于知识的顺序决策（Knowledge-based Sequential Decision-Making under Uncertainty），张世琦，Mohan Sridharan

【AAAI 2019 Tutorial】不确定性下基于知识的顺序决策（Knowledge-based Sequential Decision-Making under Uncertainty），张世琦，Mohan Sridharan

专知会员服务

13+阅读 · 2019年11月18日

《多域作战环境下的军事决策过程》

《多域作战环境下的军事决策过程》

专知

113+阅读 · 2023年4月12日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

50+阅读 · 2022年11月16日

【苏黎世联邦理工博士论文】神经系统中的知识不确定性与终身学习，179页pdf

【苏黎世联邦理工博士论文】神经系统中的知识不确定性与终身学习，179页pdf

专知

10+阅读 · 2022年10月29日

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

专知

24+阅读 · 2022年9月25日

【干货书】深度不确定性条件下的决策:理论到实践，408页pdf

【干货书】深度不确定性条件下的决策:理论到实践，408页pdf

专知

17+阅读 · 2021年1月18日

【开放新书】不确定性决策与强化学习，267页pdf，瑞典查尔姆斯理工大学

【开放新书】不确定性决策与强化学习，267页pdf，瑞典查尔姆斯理工大学

专知

31+阅读 · 2020年4月28日

「PPT」深度学习中的不确定性估计

「PPT」深度学习中的不确定性估计

专知

27+阅读 · 2019年7月20日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

CMU 邢波教授2019春季《概率图模型》课程开讲，带你学习PGM（含讲义PPT及视频）

CMU 邢波教授2019春季《概率图模型》课程开讲，带你学习PGM（含讲义PPT及视频）

专知

51+阅读 · 2019年1月25日

【干货】终极入门马尔可夫网络 (Markov Networks)——概率图模型

【干货】终极入门马尔可夫网络 (Markov Networks)——概率图模型

机器学习研究会

31+阅读 · 2018年1月7日

知识不确定性度量的粒计算模型及其应用研究

国家自然科学基金

1+阅读 · 2017年12月31日

随机振动响应预测中的模型形式不确定性量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于不确定性计算的鲁棒风险评估关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

考虑不确定性的结构动力学响应模型可信度确认方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

随机动态系统的风险分析及其最优控制问题

国家自然科学基金

1+阅读 · 2014年12月31日

不确定非凸规划的稳健全局优化方法的研究

国家自然科学基金

1+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

Analysis of approximate linear programming solution to Markov decision problem with log barrier function

Arxiv

0+阅读 · 2月23日

MDP Planning as Policy Inference

MDP Planning as Policy Inference

Arxiv

0+阅读 · 2月19日

Robust Design in the Presence of Aleatoric and Epistemic Uncertainty

Arxiv

0+阅读 · 2月17日

Robust Design in the Presence of Aleatoric and Epistemic Uncertainty

Arxiv

0+阅读 · 2月13日

Multi-Environment MDPs with Prior and Universal Semantics

Arxiv

0+阅读 · 2月11日

Efficient Algorithms for Robust Markov Decision Processes with $s$-Rectangular Ambiguity Sets

Arxiv

0+阅读 · 2月5日

Piecewise Deterministic Markov Processes for Bayesian Inference of PDE Coefficients

Arxiv

0+阅读 · 2月5日

Toward Learning POMDPs Beyond Full-Rank Actions and State Observability

Arxiv

0+阅读 · 2月3日

Data- and Variance-dependent Regret Bounds for Online Tabular MDPs

Arxiv

0+阅读 · 2月2日

Strongly Polynomial Time Complexity of Policy Iteration for $L_\infty$ Robust MDPs

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

认知不确定

马尔可夫决策过程

最新内容

非对称优势：美海军开发低成本反无人机技术

非对称优势：美海军开发低成本反无人机技术

专知会员服务

4+阅读 · 今天4:39

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

专知会员服务

13+阅读 · 今天2:52

《美战争部小企业创新研究（SBIR）计划》

《美战争部小企业创新研究（SBIR）计划》

专知会员服务

5+阅读 · 今天2:48

《军事模拟：将军事条令与目标融入AI智能体》

《军事模拟：将军事条令与目标融入AI智能体》

专知会员服务

8+阅读 · 今天2:43

【NTU博士论文】3D人体动作生成

【NTU博士论文】3D人体动作生成

专知会员服务

6+阅读 · 4月24日

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

专知会员服务

7+阅读 · 4月24日

以色列军事技术对美国军力发展的持续性赋能

以色列军事技术对美国军力发展的持续性赋能

专知会员服务

8+阅读 · 4月24日

战场之外的较量：美伊冲突中的认知战与心理博弈

战场之外的较量：美伊冲突中的认知战与心理博弈

专知会员服务

6+阅读 · 4月24日

俄乌战争中乌克兰防空能力演变与见解（中文版）

俄乌战争中乌克兰防空能力演变与见解（中文版）

专知会员服务

6+阅读 · 4月24日

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

专知会员服务

9+阅读 · 4月24日

《深度强化学习在兵棋推演中的应用》40页报告

《深度强化学习在兵棋推演中的应用》40页报告

专知会员服务

13+阅读 · 4月24日

《多域作战面临复杂现实》

《多域作战面临复杂现实》

专知会员服务

9+阅读 · 4月24日

《印度的多域作战：条令与能力发展》报告

《印度的多域作战：条令与能力发展》报告

专知会员服务

4+阅读 · 4月24日

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

专知会员服务

4+阅读 · 4月24日

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

专知会员服务

6+阅读 · 4月24日

相关VIP内容

【博士论文】基于不确定性的可靠性：现代机器学习中的选择性预测与可信部署

【博士论文】基于不确定性的可靠性：现代机器学习中的选择性预测与可信部署

专知会员服务

24+阅读 · 2025年8月14日

《隐形战斗机选型的不确定性多标准决策分析》

《隐形战斗机选型的不确定性多标准决策分析》

专知会员服务

17+阅读 · 2024年12月11日

【ETHZ博士论文】分布不确定性下的决策，234页pdf

【ETHZ博士论文】分布不确定性下的决策，234页pdf

专知会员服务

49+阅读 · 2024年4月5日

【伯克利博士论文】不确定性序列决策:最优性保证，组合学习，以及在机器人技术和生态学中的应用，256页pdf

【伯克利博士论文】不确定性序列决策:最优性保证，组合学习，以及在机器人技术和生态学中的应用，256页pdf

专知会员服务

38+阅读 · 2023年5月17日

【MIT博士论文】不确定环境下自主系统的风险感知规划与概率预测，166页pdf

【MIT博士论文】不确定环境下自主系统的风险感知规划与概率预测，166页pdf

专知会员服务

38+阅读 · 2023年5月3日

不确定性决策学习，普林斯顿Bartolomeo Stellato讲授，附Slides与视频

不确定性决策学习，普林斯顿Bartolomeo Stellato讲授，附Slides与视频

专知会员服务

49+阅读 · 2023年3月6日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知会员服务

254+阅读 · 2022年11月15日

不确定性下如何决策？弗吉尼亚理工最新《不确定性推理与量化的决策研究综述》，51页pdf阐述信念理论与深度学习结合下的不确定性决策

不确定性下如何决策？弗吉尼亚理工最新《不确定性推理与量化的决策研究综述》，51页pdf阐述信念理论与深度学习结合下的不确定性决策

专知会员服务

108+阅读 · 2022年6月17日

【斯坦福2021新书】决策算法，694页pdf阐述不确定性决策

【斯坦福2021新书】决策算法，694页pdf阐述不确定性决策

专知会员服务

264+阅读 · 2021年1月27日

【AAAI 2019 Tutorial】不确定性下基于知识的顺序决策（Knowledge-based Sequential Decision-Making under Uncertainty），张世琦，Mohan Sridharan

【AAAI 2019 Tutorial】不确定性下基于知识的顺序决策（Knowledge-based Sequential Decision-Making under Uncertainty），张世琦，Mohan Sridharan

专知会员服务

13+阅读 · 2019年11月18日

热门VIP内容

开通专知VIP会员享更多权益服务

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《军事模拟：将军事条令与目标融入AI智能体》

非对称优势：美海军开发低成本反无人机技术

《美战争部小企业创新研究（SBIR）计划》

相关资讯

《多域作战环境下的军事决策过程》

《多域作战环境下的军事决策过程》

专知

113+阅读 · 2023年4月12日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

50+阅读 · 2022年11月16日

【苏黎世联邦理工博士论文】神经系统中的知识不确定性与终身学习，179页pdf

【苏黎世联邦理工博士论文】神经系统中的知识不确定性与终身学习，179页pdf

专知

10+阅读 · 2022年10月29日

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

专知

24+阅读 · 2022年9月25日

【干货书】深度不确定性条件下的决策:理论到实践，408页pdf

【干货书】深度不确定性条件下的决策:理论到实践，408页pdf

专知

17+阅读 · 2021年1月18日

【开放新书】不确定性决策与强化学习，267页pdf，瑞典查尔姆斯理工大学

【开放新书】不确定性决策与强化学习，267页pdf，瑞典查尔姆斯理工大学

专知

31+阅读 · 2020年4月28日

「PPT」深度学习中的不确定性估计

「PPT」深度学习中的不确定性估计

专知

27+阅读 · 2019年7月20日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

CMU 邢波教授2019春季《概率图模型》课程开讲，带你学习PGM（含讲义PPT及视频）

CMU 邢波教授2019春季《概率图模型》课程开讲，带你学习PGM（含讲义PPT及视频）

专知

51+阅读 · 2019年1月25日

【干货】终极入门马尔可夫网络 (Markov Networks)——概率图模型

【干货】终极入门马尔可夫网络 (Markov Networks)——概率图模型

机器学习研究会

31+阅读 · 2018年1月7日

相关论文

Analysis of approximate linear programming solution to Markov decision problem with log barrier function

Arxiv

0+阅读 · 2月23日

MDP Planning as Policy Inference

MDP Planning as Policy Inference

Arxiv

0+阅读 · 2月19日

Robust Design in the Presence of Aleatoric and Epistemic Uncertainty

Arxiv

0+阅读 · 2月17日

Robust Design in the Presence of Aleatoric and Epistemic Uncertainty

Arxiv

0+阅读 · 2月13日

Multi-Environment MDPs with Prior and Universal Semantics

Arxiv

0+阅读 · 2月11日

Efficient Algorithms for Robust Markov Decision Processes with $s$-Rectangular Ambiguity Sets

Arxiv

0+阅读 · 2月5日

Piecewise Deterministic Markov Processes for Bayesian Inference of PDE Coefficients

Arxiv

0+阅读 · 2月5日

Toward Learning POMDPs Beyond Full-Rank Actions and State Observability

Arxiv

0+阅读 · 2月3日

Data- and Variance-dependent Regret Bounds for Online Tabular MDPs

Arxiv

0+阅读 · 2月2日

Strongly Polynomial Time Complexity of Policy Iteration for $L_\infty$ Robust MDPs

Arxiv

0+阅读 · 1月30日

相关基金

知识不确定性度量的粒计算模型及其应用研究

国家自然科学基金

1+阅读 · 2017年12月31日

随机振动响应预测中的模型形式不确定性量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于不确定性计算的鲁棒风险评估关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

考虑不确定性的结构动力学响应模型可信度确认方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

随机动态系统的风险分析及其最优控制问题

国家自然科学基金

1+阅读 · 2014年12月31日

不确定非凸规划的稳健全局优化方法的研究

国家自然科学基金

1+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员