We investigate robustness to strong data corruption in offline sparse reinforcement learning (RL). In our setting, an adversary may arbitrarily perturb a fraction of the collected trajectories from a high-dimensional but sparse Markov decision process, and our goal is to estimate a near optimal policy. The main challenge is that, in the high-dimensional regime where the number of samples $N$ is smaller than the feature dimension $d$, exploiting sparsity is essential for obtaining non-vacuous guarantees but has not been systematically studied in offline RL. We analyse the problem under uniform coverage and sparse single-concentrability assumptions. While Least Square Value Iteration (LSVI), a standard approach for robust offline RL, performs well under uniform coverage, we show that integrating sparsity into LSVI is unnatural, and its analysis may break down due to overly pessimistic bonuses. To overcome this, we propose actor-critic methods with sparse robust estimator oracles, which avoid the use of pointwise pessimistic bonuses and provide the first non-vacuous guarantees for sparse offline RL under single-policy concentrability coverage. Moreover, we extend our results to the contaminated setting and show that our algorithm remains robust under strong contamination. Our results provide the first non-vacuous guarantees in high-dimensional sparse MDPs with single-policy concentrability coverage and corruption, showing that learning a near-optimal policy remains possible in regimes where traditional robust offline RL techniques may fail.


翻译:本研究探讨了高维稀疏马尔可夫决策过程中离线稀疏强化学习对强数据干扰的鲁棒性问题。在此设定下,对抗者可能对收集到的轨迹中一定比例的数据进行任意扰动,我们的目标是估计出接近最优的策略。核心挑战在于:在样本数量$N$小于特征维度$d$的高维场景下,利用稀疏性对于获得非平凡的理论保证至关重要,但该问题在离线强化学习中尚未得到系统研究。我们在均匀覆盖假设与稀疏单策略可集中性假设下分析了该问题。虽然鲁棒离线强化学习的标准方法——最小二乘值迭代在均匀覆盖条件下表现良好,但我们发现将稀疏性整合到该方法中存在本质困难,其分析可能因过于悲观的奖励修正项而失效。为此,我们提出了基于稀疏鲁棒估计器预言机的行动者-评论家方法,该方法避免了逐点悲观奖励修正项的使用,首次为单策略可集中性覆盖条件下的稀疏离线强化学习提供了非平凡的理论保证。此外,我们将结果扩展到污染数据场景,证明所提算法在强污染条件下仍保持鲁棒性。本研究首次为具有单策略可集中性覆盖与数据污染的高维稀疏马尔可夫决策过程提供了非平凡的理论保证,证明了在传统鲁棒离线强化学习方法可能失效的场景中,学习接近最优策略仍然是可行的。

0
下载
关闭预览

相关内容

离线强化学习研究综述
专知会员服务
38+阅读 · 2025年1月12日
基于表征学习的离线强化学习方法研究综述
专知会员服务
29+阅读 · 2024年7月2日
【牛津大学博士论文】抗规避攻击鲁棒学习的样本复杂度
基于模型的强化学习综述
专知会员服务
48+阅读 · 2023年1月9日
【ICML2022】鲁棒强化学习的策略梯度法
专知会员服务
38+阅读 · 2022年5月21日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
「强化学习可解释性」最新2022综述
专知
12+阅读 · 2022年1月16日
基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】
人工智能前沿讲习班
27+阅读 · 2018年12月13日
稀疏性的3个优势 -《稀疏统计学习及其应用》
遇见数学
15+阅读 · 2018年10月24日
548页MIT强化学习教程,收藏备用【PDF下载】
机器学习算法与Python学习
17+阅读 · 2018年10月11日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员