我们研究了时间差分(TD)学习中泛化与干涉之间的关系。干涉被定义为两个不同梯度的内积,表示它们的对齐。这个量从对神经网络、参数共享和动态学习的各种观察中产生。我们发现,TD很容易导致低干扰、欠泛化参数,而在监督学习中,这种效应似乎是相反的。我们假设,原因可以追溯到相互作用之间的动态干扰和bootstrapping。这是由几个观察:支持经验之间的负面关系泛化间隙和干涉TD,引导对干扰的负面影响和当地的一致性目标,和信息的传播速度之间的对比在TD(0)和TD(λ)和回归蒙特卡罗政策评估等任务。我们希望这些新的发现能够指导未来更好的引导方法的发现。

成为VIP会员查看完整内容
26

相关内容

【ICML2020】多视角对比图表示学习,Contrastive Multi-View GRL
专知会员服务
80+阅读 · 2020年6月11日
【斯坦福大学】Gradient Surgery for Multi-Task Learning
专知会员服务
47+阅读 · 2020年1月23日
专知会员服务
54+阅读 · 2019年12月22日
论文浅尝 | 时序与因果关系联合推理
开放知识图谱
36+阅读 · 2019年6月23日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
一文学习基于蒙特卡罗的强化学习方法(送书)
人工智能头条
7+阅读 · 2018年3月13日
Generalization and Regularization in DQN
Arxiv
6+阅读 · 2019年1月30日
Arxiv
3+阅读 · 2018年10月11日
Hierarchical Deep Multiagent Reinforcement Learning
Arxiv
8+阅读 · 2018年9月25日
VIP会员
最新内容
《无人机革命:来自俄乌战场的启示》(报告)
专知会员服务
3+阅读 · 今天6:48
《实现联合作战能力所需的技术》58页报告
专知会员服务
1+阅读 · 今天6:30
以色列运用人工智能优化空袭警报系统
专知会员服务
0+阅读 · 今天6:20
以色列在多条战线部署AI智能体
专知会员服务
1+阅读 · 今天6:12
2025年大语言模型进展报告
专知会员服务
13+阅读 · 4月25日
多智能体协作机制
专知会员服务
12+阅读 · 4月25日
非对称优势:美海军开发低成本反无人机技术
专知会员服务
9+阅读 · 4月25日
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
8+阅读 · 4月25日
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
12+阅读 · 4月25日
相关VIP内容
微信扫码咨询专知VIP会员