Fitted Q-evaluation (FQE) is a foundational method for off-policy evaluation in reinforcement learning, but existing theory typically relies on Bellman completeness of the function class, a condition often violated in practice. This reliance is due to a fundamental norm mismatch: the Bellman operator is gamma-contractive in the L^2 norm induced by the target policy's stationary distribution, whereas standard FQE fits Bellman regressions under the behavior distribution. To resolve this mismatch, we reweight each Bellman regression step by an estimate of the stationary density ratio, inspired by emphatic weighting in temporal-difference learning. This makes the update behave as if it were performed under the target stationary distribution, restoring contraction without Bellman completeness while preserving the simplicity of regression-based evaluation. Illustrative experiments, including Baird's classical counterexample, show that stationary weighting can stabilize FQE under off-policy sampling.


翻译:拟合Q评估(FQE)是强化学习中离线策略评估的基础方法,但现有理论通常依赖于函数类的贝尔曼完备性,而该条件在实践中常被违反。这种依赖性源于基本的范数失配:贝尔曼算子在目标策略平稳分布诱导的L²范数下具有γ-收缩性,而标准FQE在行为分布下进行贝尔曼回归拟合。为解决这一失配问题,我们借鉴时序差分学习中的强调加权方法,通过对每个贝尔曼回归步骤施加平稳密度比的估计值进行重加权。这使得更新过程仿佛在目标平稳分布下进行,从而在保持基于回归的评估简洁性的同时,无需贝尔曼完备性即可恢复收缩特性。包含Baird经典反例在内的 illustrative 实验表明,平稳加权能有效稳定离线策略采样下的FQE方法。

0
下载
关闭预览

相关内容

基于贝叶斯网络的武器装备体系作战效能评估方法
专知会员服务
89+阅读 · 2023年7月5日
专知会员服务
17+阅读 · 2020年12月4日
强化学习开篇:Q-Learning原理详解
AINLP
37+阅读 · 2020年7月28日
无监督分词和句法分析!原来BERT还可以这样用
PaperWeekly
12+阅读 · 2020年6月17日
元强化学习迎来一盆冷水:不比元Q学习好多少
AI科技评论
12+阅读 · 2020年2月27日
如何理解模型的过拟合与欠拟合,以及如何解决?
七月在线实验室
12+阅读 · 2019年4月23日
论文浅尝 | 问题生成(QG)与答案生成(QA)的结合
开放知识图谱
16+阅读 · 2018年7月15日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
45+阅读 · 2014年12月31日
VIP会员
相关主题
最新内容
超越网格:作战环境对炮兵的影响
专知会员服务
0+阅读 · 35分钟前
KDD 2026 | MixRAGRec:面向LLM推荐的混合专家KG-RAG框架
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
4+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
4+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
14+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
8+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
相关VIP内容
基于贝叶斯网络的武器装备体系作战效能评估方法
专知会员服务
89+阅读 · 2023年7月5日
专知会员服务
17+阅读 · 2020年12月4日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
45+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员