The family of linear recurrent neural networks has shown strong performance as recurrent memory units in partially observable reinforcement learning. We provide a theoretical justification for their empirical effectiveness by constructing and studying two linear filters: (i) the first exactly reproduces the pre-softmax logits of the belief vector in a hidden Markov model (HMM) under a deterministic transition matrix, thereby serving as a sufficient statistic for optimal policy learning, (ii) the second achieves vanishing state-decoding error under a nearly deterministic transition matrix, thus reducing state ambiguity to near zero. The results extend to action-controlled HMMs, where the corresponding linear filters become time-varying with action-dependent dynamics. We illustrate our main results through numerical experiments and further show that the constructed linear filter serves as a strong feature extractor in a small reinforcement learning game.


翻译:线性循环神经网络族作为循环记忆单元,在部分可观测强化学习中展现出强劲性能。我们通过构造并研究两类线性滤波器,为其经验有效性提供理论依据:(i)第一类在线性确定性转移矩阵条件下,精确复现隐马尔可夫模型(HMM)中信念向量经softmax前的logits值,从而构成最优策略学习的充分统计量;(ii)第二类在近似确定性转移矩阵条件下,实现状态解码误差趋近于零,进而将状态模糊性降至最低。该结论可推广至动作控制型隐马尔可夫模型,此时对应线性滤波器将随动作依赖动态特性成为时变系统。我们通过数值实验验证主要结论,并进一步展示所构造的线性滤波器在小规模强化学习博弈中可作为强特征提取器。

0
下载
关闭预览

相关内容

深度强化学习中的可塑性损失:综述
专知会员服务
22+阅读 · 2024年11月8日
面向强化学习的可解释性研究综述
专知会员服务
44+阅读 · 2024年7月30日
基于表征学习的离线强化学习方法研究综述
专知会员服务
29+阅读 · 2024年7月2日
专知会员服务
52+阅读 · 2021年4月6日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
综述| 当图神经网络遇上强化学习
图与推荐
35+阅读 · 2022年7月1日
「强化学习可解释性」最新2022综述
专知
12+阅读 · 2022年1月16日
【总结】强化学习需要批归一化(Batch Norm)吗?
深度强化学习实验室
28+阅读 · 2020年10月8日
干货 | 循环神经网络(RNN)和LSTM初学者指南
THU数据派
15+阅读 · 2019年1月25日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
深度学习循环神经网络详解
七月在线实验室
16+阅读 · 2018年5月28日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Arxiv
0+阅读 · 6月1日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
2+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关资讯
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员