Fitted Q-evaluation (FQE) is a central method for off-policy evaluation in reinforcement learning, but it generally requires Bellman completeness: that the hypothesis class is closed under the evaluation Bellman operator. This requirement is challenging because enlarging the hypothesis class can worsen completeness. We show that the need for this assumption stems from a fundamental norm mismatch: the Bellman operator is gamma-contractive under the stationary distribution of the target policy, whereas FQE minimizes Bellman error under the behavior distribution. We propose a simple fix: reweight each regression step using an estimate of the stationary density ratio, thereby aligning FQE with the norm in which the Bellman operator contracts. This enables strong evaluation guarantees in the absence of realizability or Bellman completeness, avoiding the geometric error blow-up of standard FQE in this setting while maintaining the practicality of regression-based evaluation.


翻译:拟合Q评估(FQE)是强化学习中离策略评估的核心方法,但其通常需要贝尔曼完备性:即假设类在评估贝尔曼算子下是封闭的。这一要求具有挑战性,因为扩大假设类可能破坏完备性。我们证明,这一假设的必要性源于一个基本的范数失配:贝尔曼算子在目标策略的平稳分布下是γ收缩的,而FQE在行为分布下最小化贝尔曼误差。我们提出一种简单的修正方案:使用平稳密度比估计对每个回归步骤进行重新加权,从而使FQE与贝尔曼算子的收缩范数对齐。这使得在缺乏可实现性或贝尔曼完备性的情况下仍能获得稳健的评估保证,避免了标准FQE在此场景下的几何误差爆炸,同时保持了基于回归评估的实用性。

0
下载
关闭预览

相关内容

不确定态势下无人机群协同作战效能评估
专知会员服务
33+阅读 · 2025年3月8日
基于贝叶斯网络的武器装备体系作战效能评估方法
专知会员服务
89+阅读 · 2023年7月5日
专知会员服务
17+阅读 · 2020年12月4日
强化学习开篇:Q-Learning原理详解
AINLP
37+阅读 · 2020年7月28日
无监督分词和句法分析!原来BERT还可以这样用
PaperWeekly
12+阅读 · 2020年6月17日
元强化学习迎来一盆冷水:不比元Q学习好多少
AI科技评论
12+阅读 · 2020年2月27日
【干货】BERT模型的标准调优和花式调优
新智元
11+阅读 · 2019年4月26日
如何理解模型的过拟合与欠拟合,以及如何解决?
七月在线实验室
12+阅读 · 2019年4月23日
论文浅尝 | 问题生成(QG)与答案生成(QA)的结合
开放知识图谱
16+阅读 · 2018年7月15日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
45+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月3日
Arxiv
0+阅读 · 1月20日
VIP会员
相关VIP内容
不确定态势下无人机群协同作战效能评估
专知会员服务
33+阅读 · 2025年3月8日
基于贝叶斯网络的武器装备体系作战效能评估方法
专知会员服务
89+阅读 · 2023年7月5日
专知会员服务
17+阅读 · 2020年12月4日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
45+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员