Robust Markov Decision Processes (MDPs) address environmental shift through distributionally robust optimization (DRO) by finding an optimal worst-case policy within an uncertainty set of transition kernels. However, standard DRO approaches require enlarging the uncertainty set under large shifts, which leads to overly conservative and pessimistic policies. In this paper, we propose a framework for transfer under environment shift that derives a robust target-domain policy via estimate-centered uncertainty sets, constructed through constrained estimation that integrates limited target samples with side information about the source-target dynamics. The side information includes bounds on feature moments, distributional distances, and density ratios, yielding improved kernel estimates and tighter uncertainty sets. The side information includes bounds on feature moments, distributional distances, and density ratios, yielding improved kernel estimates and tighter uncertainty sets. Error bounds and convergence results are established for both robust and non-robust value functions. Moreover, we provide a finite-sample guarantee on the learned robust policy and analyze the robust sub-optimality gap. Under mild low-dimensional structure on the transition model, the side information reduces this gap and improves sample efficiency. We assess the performance of our approach across OpenAI Gym environments and classic control problems, consistently demonstrating superior target-domain performance over state-of-the-art robust and non-robust baselines.


翻译:鲁棒马尔可夫决策过程通过分布鲁棒优化,在转移核的不确定性集合中寻找最优最坏情况策略,以应对环境偏移。然而,标准分布鲁棒优化方法在面临较大偏移时需要扩大不确定性集合,这会导致策略过于保守和悲观。本文提出一个环境偏移下的迁移学习框架,该框架通过构建以估计为中心的不确定性集合来推导鲁棒的目标域策略。这些集合通过约束估计构建,该估计将有限的目标域样本与关于源-目标动态的辅助信息相结合。辅助信息包括特征矩的界、分布距离以及密度比,从而得到改进的核估计和更紧的不确定性集合。我们为鲁棒和非鲁棒值函数建立了误差界和收敛性结果。此外,我们为学习到的鲁棒策略提供了有限样本保证,并分析了鲁棒次优性间隙。在转移模型具有温和的低维结构假设下,辅助信息能够减小该间隙并提升样本效率。我们在OpenAI Gym环境和经典控制问题中评估了所提方法的性能,其目标域表现始终优于当前最先进的鲁棒与非鲁棒基线方法。

0
下载
关闭预览

相关内容

【斯坦福博士论文】大模型驱动的鲁棒机器学习,243页pdf
【斯坦福大学博士论文】鲁棒学习:信息论和算法,88页pdf
专知会员服务
44+阅读 · 2022年11月13日
【ICML2022】鲁棒强化学习的策略梯度法
专知会员服务
38+阅读 · 2022年5月21日
专知会员服务
25+阅读 · 2021年6月17日
专知会员服务
26+阅读 · 2021年4月13日
专知会员服务
144+阅读 · 2021年3月17日
基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】
人工智能前沿讲习班
27+阅读 · 2018年12月13日
基于Keras进行迁移学习
论智
12+阅读 · 2018年5月6日
【迁移学习】简述迁移学习在深度学习中的应用
产业智能官
15+阅读 · 2018年1月9日
迁移学习在深度学习中的应用
专知
24+阅读 · 2017年12月24日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月14日
Arxiv
0+阅读 · 2月10日
Arxiv
0+阅读 · 2月6日
VIP会员
最新内容
Palantir AIP平台:连接智能体与决策
专知会员服务
4+阅读 · 今天1:22
《美海军软件测试战略》90页slides
专知会员服务
6+阅读 · 今天1:00
面向具身智能与机器人仿真的三维生成:综述
专知会员服务
6+阅读 · 4月30日
相关VIP内容
【斯坦福博士论文】大模型驱动的鲁棒机器学习,243页pdf
【斯坦福大学博士论文】鲁棒学习:信息论和算法,88页pdf
专知会员服务
44+阅读 · 2022年11月13日
【ICML2022】鲁棒强化学习的策略梯度法
专知会员服务
38+阅读 · 2022年5月21日
专知会员服务
25+阅读 · 2021年6月17日
专知会员服务
26+阅读 · 2021年4月13日
专知会员服务
144+阅读 · 2021年3月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员