We introduce a novel cyclic Markov decision process (MDP) framework for multi-step decision problems with heterogeneous stage-specific dynamics, transitions, and discount factors across the cycle. In this setting, offline learning is challenging: optimizing a policy at any stage shifts the state distributions of subsequent stages, propagating mismatch across the cycle. To address this, we propose a modular structural framework that decomposes the cyclic process into stage-wise sub-problems. While generally applicable, we instantiate this principle as CycleFQI, an extension of fitted Q-iteration enabling theoretical analysis and interpretation. It uses a vector of stage-specific Q-functions, tailored to each stage, to capture within-stage sequences and transitions between stages. This modular design enables partial control, allowing some stages to be optimized while others follow predefined policies. We establish finite-sample suboptimality error bounds and derive global convergence rates under Besov regularity, demonstrating that CycleFQI mitigates the curse of dimensionality compared to monolithic baselines. Additionally, we propose a sieve-based method for asymptotic inference of optimal policy values under a margin condition. Experiments on simulated and real-world Type 1 Diabetes data sets demonstrate CycleFQI's effectiveness.


翻译:本文针对具有异质阶段特定动态、转移和折扣因子的多步决策问题,提出了一种新颖的循环马尔可夫决策过程框架。在此设定下,离线学习面临挑战:优化任一阶段的策略会改变后续阶段的状态分布,导致不匹配性在循环中传播。为解决该问题,我们提出一种模块化结构框架,将循环过程分解为阶段性子问题。该原理具有普适性,我们将其具体实现为CycleFQI——一种支持理论分析与解释的拟合Q迭代扩展方法。该方法采用阶段特定的Q函数向量,每个函数针对相应阶段定制,以捕捉阶段内序列与阶段间转移。这种模块化设计支持部分控制,允许优化特定阶段而其他阶段遵循预定义策略。我们建立了有限样本次优性误差界,并在Besov正则性条件下推导出全局收敛速率,证明相较于整体基线方法,CycleFQI能够缓解维度灾难问题。此外,我们提出一种基于筛法的方法,用于在边界条件下对最优策略值进行渐近推断。在模拟数据和真实世界1型糖尿病数据集上的实验验证了CycleFQI的有效性。

0
下载
关闭预览

相关内容

离线强化学习研究综述
专知会员服务
38+阅读 · 2025年1月12日
【2024新书】强化学习中利用环境可配置性,377页pdf
专知会员服务
54+阅读 · 2024年2月19日
【ICML2023】在受限逆强化学习中的可识别性和泛化能力
专知会员服务
26+阅读 · 2023年6月5日
基于模型的强化学习综述
专知会员服务
48+阅读 · 2023年1月9日
【简明书】强化学习的基础,111页pdf
专知会员服务
95+阅读 · 2022年11月16日
专知会员服务
15+阅读 · 2021年9月25日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
「强化学习可解释性」最新2022综述
专知
12+阅读 · 2022年1月16日
548页MIT强化学习教程,收藏备用【PDF下载】
机器学习算法与Python学习
17+阅读 · 2018年10月11日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
VIP会员
相关VIP内容
离线强化学习研究综述
专知会员服务
38+阅读 · 2025年1月12日
【2024新书】强化学习中利用环境可配置性,377页pdf
专知会员服务
54+阅读 · 2024年2月19日
【ICML2023】在受限逆强化学习中的可识别性和泛化能力
专知会员服务
26+阅读 · 2023年6月5日
基于模型的强化学习综述
专知会员服务
48+阅读 · 2023年1月9日
【简明书】强化学习的基础,111页pdf
专知会员服务
95+阅读 · 2022年11月16日
专知会员服务
15+阅读 · 2021年9月25日
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员