Model-based Bootstrap of Controlled Markov Chains - 专知论文

会员服务 ·

0

自助法/自举法 · 控制器 · Markov · 马尔可夫链 · 置信度 ·

Model-based Bootstrap of Controlled Markov Chains

翻译：基于模型的有控马尔可夫链自助法

Ziwei Su,Imon Banerjee,Diego Klabjan

from arxiv, 45 pages, 7 figures, 19 tables

We propose and analyze a model-based bootstrap for transition kernels in finite controlled Markov chains (CMCs) with possibly nonstationary or history-dependent control policies, a setting that arises naturally in offline reinforcement learning (RL) when the behavior policy generating the data is unknown. We establish distributional consistency of the bootstrap transition estimator in both a single long-chain regime and the episodic offline RL regime. The key technical tools are a novel bootstrap law of large numbers (LLN) for the visitation counts and a novel use of the martingale central limit theorem (CLT) for the bootstrap transition increments. We extend bootstrap distributional consistency to the downstream targets of offline policy evaluation (OPE) and optimal policy recovery (OPR) via the delta method by verifying Hadamard differentiability of the Bellman operators, yielding asymptotically valid confidence intervals for value and $Q$-functions. Experiments on the RiverSwim problem show that the proposed bootstrap confidence intervals (CIs), especially the percentile CIs, outperform the episodic bootstrap and plug-in CLT CIs, and are often close to nominal ($50\%$, $90\%$, $95\%$) coverage, while the baselines are poorly calibrated at small sample sizes and short episode lengths.

翻译：我们提出并分析了一种针对有限有控马尔可夫链(CMCs)中转移核的基于模型的自助法，该框架适用于可能非平稳或具有历史依赖性的控制策略——这一设定自然出现于离线强化学习(RL)中当生成数据的行为策略未知时。我们在单条长链场景和情景式离线强化学习场景中均建立了自助法转移估计量的分布一致性。关键技术工具是用于访问计数的新型自助法大数定律(LLN)以及用于自助法转移增量的鞅中心极限定理(CLT)的创新应用。通过验证Bellman算子的哈达玛可微性，我们借助Delta方法将自助法分布一致性拓展至离线策略评估(OPE)和最优策略恢复(OPR)的下游目标，从而得到价值函数和Q函数的渐近有效置信区间。在RiverSwim问题上的实验表明，所提出的自助法置信区间(CI)（尤其是百分位CI）优于情景式自助法和插入式CLT置信区间，其在名义覆盖率（50%、90%、95%）附近表现良好，而基线方法在小样本量和短情景长度时校准效果较差。

0

相关内容

自助法/自举法

自助法/自举法

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

专知会员服务

55+阅读 · 2024年7月24日

什么可控学习？人大最新《可控学习》综述，信息检索中的方法和应用

什么可控学习？人大最新《可控学习》综述，信息检索中的方法和应用

专知会员服务

18+阅读 · 2024年7月9日

《用于水下目标定位的平台便携式强化学习方法》

《用于水下目标定位的平台便携式强化学习方法》

专知会员服务

28+阅读 · 2024年1月2日

【NeurIPS2023】LLM 用于半自动数据科学：介绍 CAAFE，一种具有上下文感知的自动特征工程方法

【NeurIPS2023】LLM 用于半自动数据科学：介绍 CAAFE，一种具有上下文感知的自动特征工程方法

专知会员服务

37+阅读 · 2023年10月3日

【2023新书】马尔可夫链吉布斯场，蒙特卡罗模拟和队列，564页pdf

【2023新书】马尔可夫链吉布斯场，蒙特卡罗模拟和队列，564页pdf

专知会员服务

63+阅读 · 2023年3月8日

《分布式部分可观察马尔科夫决策过程中机器智能体的分解信念》美国空军技术学院2022最新论文

《分布式部分可观察马尔科夫决策过程中机器智能体的分解信念》美国空军技术学院2022最新论文

专知会员服务

27+阅读 · 2022年10月18日

推荐！【美国空军】《可靠自主性的分布式学习和控制器设计》24页“可靠自主性”（Assured Autonomy）项目技术报告，2022年8月

推荐！【美国空军】《可靠自主性的分布式学习和控制器设计》24页“可靠自主性”（Assured Autonomy）项目技术报告，2022年8月

专知会员服务

41+阅读 · 2022年9月25日

最新《自动机器学习》综述论文，AutoML: A Survey of the State-of-the-Art

最新《自动机器学习》综述论文，AutoML: A Survey of the State-of-the-Art

专知会员服务

93+阅读 · 2020年7月10日

【CIKM 2019论文】重力启发式图自编码器定向链路预测（Gravity-Inspired Graph Autoencoders for Directed Link Prediction），Guillaume Salha，Stratis Limnios

【CIKM 2019论文】重力启发式图自编码器定向链路预测（Gravity-Inspired Graph Autoencoders for Directed Link Prediction），Guillaume Salha，Stratis Limnios

专知会员服务

28+阅读 · 2019年11月20日

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

专知会员服务

24+阅读 · 2019年11月11日

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

39+阅读 · 2023年4月13日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

概述自动机器学习（AutoML）

概述自动机器学习（AutoML）

人工智能学家

19+阅读 · 2019年8月11日

Github 项目推荐 | 论文的代码实现：可变形ConvNets v2的PyTorch实现

Github 项目推荐 | 论文的代码实现：可变形ConvNets v2的PyTorch实现

AI研习社

22+阅读 · 2019年1月10日

可视化循环神经网络的注意力机制

可视化循环神经网络的注意力机制

论智

22+阅读 · 2018年9月23日

不用数学讲清马尔可夫链蒙特卡洛方法？

不用数学讲清马尔可夫链蒙特卡洛方法？

算法与数学之美

16+阅读 · 2018年8月8日

【干货】终极入门马尔可夫网络 (Markov Networks)——概率图模型

【干货】终极入门马尔可夫网络 (Markov Networks)——概率图模型

机器学习研究会

31+阅读 · 2018年1月7日

一份数学小白也能读懂的「马尔可夫链蒙特卡洛方法」入门指南

一份数学小白也能读懂的「马尔可夫链蒙特卡洛方法」入门指南

算法与数学之美

10+阅读 · 2018年1月4日

不用数学也能讲清贝叶斯理论的马尔可夫链蒙特卡洛方法？这篇文章做到了

不用数学也能讲清贝叶斯理论的马尔可夫链蒙特卡洛方法？这篇文章做到了

AI100

11+阅读 · 2017年12月24日

专知主题链路知识推荐#1——马尔科夫链蒙特卡洛采样(附代码)

专知主题链路知识推荐#1——马尔科夫链蒙特卡洛采样(附代码)

专知

24+阅读 · 2017年9月16日

纳米尺度自旋电子器件参数化电路模型建立方法的研究

国家自然科学基金

0+阅读 · 2017年12月31日

网络化非线性系统的协调控制及其在分布式可重构航天器中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

马尔科夫跳跃正系统的稳定分析与控制综合

国家自然科学基金

0+阅读 · 2015年12月31日

“模块化自组装”DNA计算模型的研究

国家自然科学基金

3+阅读 · 2015年12月31日

随机非线性量化反馈系统的自适应模糊控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于EEP法的杆系结构裂纹损伤识别有限元自适应求解研究

国家自然科学基金

0+阅读 · 2015年12月31日

有限范围随机最优控制系统的数值方法与均场倒向随机系统的最优控制问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机约束下非齐次Markov跳变系统控制器设计

国家自然科学基金

0+阅读 · 2015年12月31日

基于马尔科夫链的线性系统求解问题的高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

三维非线性磁流体力学的自适应有限元方法

国家自然科学基金

0+阅读 · 2014年12月31日

Nonparametric Modeling of Continuous-Time Markov Chains

Arxiv

0+阅读 · 6月14日

Typed Component Algebras for Simulated Annealing and Markov-Chain Monte Carlo

Arxiv

0+阅读 · 6月14日

Identifiable Markov Switching Models with Instantaneous Effects and Exponential Families

Arxiv

0+阅读 · 6月12日

Controller-Augmented Hidden Markov Models: A Computational Framework for Constrained Sequential Inference

Arxiv

0+阅读 · 6月11日

Unbiased Derivative Estimation for Stationary Mean of Parameterized Markov chains

Arxiv

0+阅读 · 6月9日

A coupling-based approach to f-divergences diagnostics for Markov chain Monte Carlo

Arxiv

0+阅读 · 6月3日

Identifiable Markov Switching Models with Instantaneous Effects and Exponential Families

Arxiv

0+阅读 · 6月1日

True Self-Avoiding Walk for Accelerating Markov-Chain Monte Carlo Integration

Arxiv

0+阅读 · 5月28日

Ancilla-Efficient QSAMPLE Preparation for Reversible Markov Chains

Arxiv

0+阅读 · 5月22日

Chained Markov melding using divide and conquer sequential Monte Carlo

Arxiv

0+阅读 · 5月21日

VIP会员

文章信息

相关主题

自助法/自举法

马尔可夫链

最新内容

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

0+阅读 · 今天2:42

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

1+阅读 · 今天2:37

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

2+阅读 · 今天2:23

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

5+阅读 · 今天2:21

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

2+阅读 · 今天1:46

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

8+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

相关VIP内容

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

专知会员服务

55+阅读 · 2024年7月24日

什么可控学习？人大最新《可控学习》综述，信息检索中的方法和应用

什么可控学习？人大最新《可控学习》综述，信息检索中的方法和应用

专知会员服务

18+阅读 · 2024年7月9日

《用于水下目标定位的平台便携式强化学习方法》

《用于水下目标定位的平台便携式强化学习方法》

专知会员服务

28+阅读 · 2024年1月2日

【NeurIPS2023】LLM 用于半自动数据科学：介绍 CAAFE，一种具有上下文感知的自动特征工程方法

【NeurIPS2023】LLM 用于半自动数据科学：介绍 CAAFE，一种具有上下文感知的自动特征工程方法

专知会员服务

37+阅读 · 2023年10月3日

【2023新书】马尔可夫链吉布斯场，蒙特卡罗模拟和队列，564页pdf

【2023新书】马尔可夫链吉布斯场，蒙特卡罗模拟和队列，564页pdf

专知会员服务

63+阅读 · 2023年3月8日

《分布式部分可观察马尔科夫决策过程中机器智能体的分解信念》美国空军技术学院2022最新论文

《分布式部分可观察马尔科夫决策过程中机器智能体的分解信念》美国空军技术学院2022最新论文

专知会员服务

27+阅读 · 2022年10月18日

推荐！【美国空军】《可靠自主性的分布式学习和控制器设计》24页“可靠自主性”（Assured Autonomy）项目技术报告，2022年8月

推荐！【美国空军】《可靠自主性的分布式学习和控制器设计》24页“可靠自主性”（Assured Autonomy）项目技术报告，2022年8月

专知会员服务

41+阅读 · 2022年9月25日

最新《自动机器学习》综述论文，AutoML: A Survey of the State-of-the-Art

最新《自动机器学习》综述论文，AutoML: A Survey of the State-of-the-Art

专知会员服务

93+阅读 · 2020年7月10日

【CIKM 2019论文】重力启发式图自编码器定向链路预测（Gravity-Inspired Graph Autoencoders for Directed Link Prediction），Guillaume Salha，Stratis Limnios

【CIKM 2019论文】重力启发式图自编码器定向链路预测（Gravity-Inspired Graph Autoencoders for Directed Link Prediction），Guillaume Salha，Stratis Limnios

专知会员服务

28+阅读 · 2019年11月20日

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

专知会员服务

24+阅读 · 2019年11月11日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

从采集到决策：美军视角下的战术情报范式重构

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

相关资讯

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

39+阅读 · 2023年4月13日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

概述自动机器学习（AutoML）

概述自动机器学习（AutoML）

人工智能学家

19+阅读 · 2019年8月11日

Github 项目推荐 | 论文的代码实现：可变形ConvNets v2的PyTorch实现

Github 项目推荐 | 论文的代码实现：可变形ConvNets v2的PyTorch实现

AI研习社

22+阅读 · 2019年1月10日

可视化循环神经网络的注意力机制

可视化循环神经网络的注意力机制

论智

22+阅读 · 2018年9月23日

不用数学讲清马尔可夫链蒙特卡洛方法？

不用数学讲清马尔可夫链蒙特卡洛方法？

算法与数学之美

16+阅读 · 2018年8月8日

【干货】终极入门马尔可夫网络 (Markov Networks)——概率图模型

【干货】终极入门马尔可夫网络 (Markov Networks)——概率图模型

机器学习研究会

31+阅读 · 2018年1月7日

一份数学小白也能读懂的「马尔可夫链蒙特卡洛方法」入门指南

一份数学小白也能读懂的「马尔可夫链蒙特卡洛方法」入门指南

算法与数学之美

10+阅读 · 2018年1月4日

不用数学也能讲清贝叶斯理论的马尔可夫链蒙特卡洛方法？这篇文章做到了

不用数学也能讲清贝叶斯理论的马尔可夫链蒙特卡洛方法？这篇文章做到了

AI100

11+阅读 · 2017年12月24日

专知主题链路知识推荐#1——马尔科夫链蒙特卡洛采样(附代码)

专知主题链路知识推荐#1——马尔科夫链蒙特卡洛采样(附代码)

专知

24+阅读 · 2017年9月16日

相关论文

Nonparametric Modeling of Continuous-Time Markov Chains

Arxiv

0+阅读 · 6月14日

Typed Component Algebras for Simulated Annealing and Markov-Chain Monte Carlo

Arxiv

0+阅读 · 6月14日

Identifiable Markov Switching Models with Instantaneous Effects and Exponential Families

Arxiv

0+阅读 · 6月12日

Controller-Augmented Hidden Markov Models: A Computational Framework for Constrained Sequential Inference

Arxiv

0+阅读 · 6月11日

Unbiased Derivative Estimation for Stationary Mean of Parameterized Markov chains

Arxiv

0+阅读 · 6月9日

A coupling-based approach to f-divergences diagnostics for Markov chain Monte Carlo

Arxiv

0+阅读 · 6月3日

Identifiable Markov Switching Models with Instantaneous Effects and Exponential Families

Arxiv

0+阅读 · 6月1日

True Self-Avoiding Walk for Accelerating Markov-Chain Monte Carlo Integration

Arxiv

0+阅读 · 5月28日

Ancilla-Efficient QSAMPLE Preparation for Reversible Markov Chains

Arxiv

0+阅读 · 5月22日

Chained Markov melding using divide and conquer sequential Monte Carlo

Arxiv

0+阅读 · 5月21日

相关基金

纳米尺度自旋电子器件参数化电路模型建立方法的研究

国家自然科学基金

0+阅读 · 2017年12月31日

网络化非线性系统的协调控制及其在分布式可重构航天器中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

马尔科夫跳跃正系统的稳定分析与控制综合

国家自然科学基金

0+阅读 · 2015年12月31日

“模块化自组装”DNA计算模型的研究

国家自然科学基金

3+阅读 · 2015年12月31日

随机非线性量化反馈系统的自适应模糊控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于EEP法的杆系结构裂纹损伤识别有限元自适应求解研究

国家自然科学基金

0+阅读 · 2015年12月31日

有限范围随机最优控制系统的数值方法与均场倒向随机系统的最优控制问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机约束下非齐次Markov跳变系统控制器设计

国家自然科学基金

0+阅读 · 2015年12月31日

基于马尔科夫链的线性系统求解问题的高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

三维非线性磁流体力学的自适应有限元方法

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员