Offline reinforcement learning (RL) aims to find optimal policies in dynamic environments in order to maximize the expected total rewards by leveraging pre-collected data. Learning from heterogeneous data is one of the fundamental challenges in offline RL. Traditional methods focus on learning an optimal policy for all individuals with pre-collected data from a single episode or homogeneous batch episodes, and thus, may result in a suboptimal policy for a heterogeneous population. In this paper, we propose an individualized offline policy optimization framework for heterogeneous time-stationary Markov decision processes (MDPs). The proposed heterogeneous model with individual latent variables enables us to efficiently estimate the individual Q-functions, and our Penalized Pessimistic Personalized Policy Learning (P4L) algorithm guarantees a fast rate on the average regret under a weak partial coverage assumption on behavior policies. In addition, our simulation studies and a real data application demonstrate the superior numerical performance of the proposed method compared with existing methods.


翻译:离线强化学习旨在利用预先收集的数据,在动态环境中寻找最优策略,以最大化期望总奖励。从异构数据中学习是离线强化学习的基本挑战之一。传统方法侧重于利用来自单一回合或同质批次回合的预收集数据,为所有个体学习一个最优策略,因此可能导致对异构群体产生次优策略。本文针对异构的时平稳马尔可夫决策过程,提出了一种个体化离线策略优化框架。所提出的包含个体潜在变量的异构模型使我们能够有效估计个体Q函数,并且我们的惩罚性悲观个性化策略学习算法在行为策略满足弱部分覆盖假设下,保证了平均遗憾的快速收敛速率。此外,我们的模拟研究和实际数据应用表明,与现有方法相比,所提方法具有更优的数值性能。

0
下载
关闭预览

相关内容

离线强化学习研究综述
专知会员服务
38+阅读 · 2025年1月12日
【MIT博士论文】数据高效强化学习,176页pdf
专知会员服务
90+阅读 · 2022年7月11日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【MIT博士论文】数据高效强化学习,176页pdf
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
一文了解强化学习
AI100
15+阅读 · 2018年8月20日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
基于强化学习的量化交易框架
机器学习研究会
30+阅读 · 2018年2月22日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2月15日
Arxiv
0+阅读 · 2月2日
VIP会员
相关VIP内容
相关资讯
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员