【ICML2020投稿论文-DeepMind】时序差分学习的推理与泛化，Temporal Difference Learning - 专知VIP

会员服务 ·

1

差分学习 · 推理 · 模型泛化 · 泛化 ·

2020 年 3 月 16 日

【ICML2020投稿论文-DeepMind】时序差分学习的推理与泛化，Temporal Difference Learning

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

我们研究了时间差分（TD）学习中泛化与干涉之间的关系。干涉被定义为两个不同梯度的内积，表示它们的对齐。这个量从对神经网络、参数共享和动态学习的各种观察中产生。我们发现，TD很容易导致低干扰、欠泛化参数，而在监督学习中，这种效应似乎是相反的。我们假设，原因可以追溯到相互作用之间的动态干扰和bootstrapping。这是由几个观察:支持经验之间的负面关系泛化间隙和干涉TD,引导对干扰的负面影响和当地的一致性目标,和信息的传播速度之间的对比在TD(0)和TD(λ)和回归蒙特卡罗政策评估等任务。我们希望这些新的发现能够指导未来更好的引导方法的发现。

成为VIP会员查看完整内容

26

相关内容

差分学习

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

【ICML2020】多视角对比图表示学习，Contrastive Multi-View GRL

【ICML2020】多视角对比图表示学习，Contrastive Multi-View GRL

专知会员服务

80+阅读 · 2020年6月11日

【ACL2020】DeeBERT:动态加速BERT推理，DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference

【ACL2020】DeeBERT:动态加速BERT推理，DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference

专知会员服务

21+阅读 · 2020年4月30日

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

专知会员服务

14+阅读 · 2020年3月27日

【谷歌大脑新论文】利用可微摄动优化器进行学习，Learning with Differentiable Perturbed Optimizers

【谷歌大脑新论文】利用可微摄动优化器进行学习，Learning with Differentiable Perturbed Optimizers

专知会员服务

29+阅读 · 2020年2月22日

【AAAI2020教程】强化学习中的Exploration-Exploitation in Reinforcement Learning

专知会员服务

101+阅读 · 2020年2月8日

【斯坦福大学】Gradient Surgery for Multi-Task Learning

【斯坦福大学】Gradient Surgery for Multi-Task Learning

专知会员服务

47+阅读 · 2020年1月23日

【表示学习(Representation Learning)】8篇 NeurIPS 2019论文选读

专知会员服务

54+阅读 · 2019年12月22日

【ICML2019 tutorial】因果推理和稳定学习（Causal Inference and Stable Learning）

【ICML2019 tutorial】因果推理和稳定学习（Causal Inference and Stable Learning）

专知会员服务

176+阅读 · 2019年12月7日

【图灵奖Yoshua Bengio】ICLR2020论文：一个元转移的目标学习解开因果机制（A Meta-Transfer Objective for Learning to Disentangle Causal Mechanisms）

【图灵奖Yoshua Bengio】ICLR2020论文：一个元转移的目标学习解开因果机制（A Meta-Transfer Objective for Learning to Disentangle Causal Mechanisms）

专知会员服务

55+阅读 · 2019年9月26日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

图灵奖Yoshua Bengio ICLR 2020再出新作：通过元学习发掘因果机制

图灵奖Yoshua Bengio ICLR 2020再出新作：通过元学习发掘因果机制

学术头条

15+阅读 · 2019年12月25日

【微软Alekh等开放新书】强化学习理论与算法，83页pdf，了解最新进展

【微软Alekh等开放新书】强化学习理论与算法，83页pdf，了解最新进展

专知

25+阅读 · 2019年11月23日

论文浅尝 | 时序与因果关系联合推理

论文浅尝 | 时序与因果关系联合推理

开放知识图谱

36+阅读 · 2019年6月23日

推特800赞，DeepMind强化学习综述：她可以很快，但快从慢中来

推特800赞，DeepMind强化学习综述：她可以很快，但快从慢中来

量子位

6+阅读 · 2019年5月3日

你的模型刚不刚？谷歌提出“刚度”概念，探索神经网络泛化新视角

你的模型刚不刚？谷歌提出“刚度”概念，探索神经网络泛化新视角

新智元

9+阅读 · 2019年3月20日

干货 | 强化学习中，如何从稀疏和不明确的反馈中学习泛化

干货 | 强化学习中，如何从稀疏和不明确的反馈中学习泛化

AI科技评论

7+阅读 · 2019年3月1日

DeepMind：用PopArt进行多任务深度强化学习

DeepMind：用PopArt进行多任务深度强化学习

论智

30+阅读 · 2018年9月14日

一文学习基于蒙特卡罗的强化学习方法（送书）

一文学习基于蒙特卡罗的强化学习方法（送书）

人工智能头条

7+阅读 · 2018年3月13日

学界 | DeepMind 16 篇 NIPS 2017 论文，全部信息都在这里了

学界 | DeepMind 16 篇 NIPS 2017 论文，全部信息都在这里了

AI科技评论

4+阅读 · 2017年12月2日

Interference and Generalization in Temporal Difference Learning

Arxiv

8+阅读 · 2020年3月13日

Representation Learning with Ordered Relation Paths for Knowledge Graph Completion

Representation Learning with Ordered Relation Paths for Knowledge Graph Completion

Arxiv

12+阅读 · 2019年9月26日

Generalization and Regularization in DQN

Generalization and Regularization in DQN

Arxiv

6+阅读 · 2019年1月30日

Reward learning from human preferences and demonstrations in Atari

Arxiv

8+阅读 · 2018年11月15日

Efficient Eligibility Traces for Deep Reinforcement Learning

Arxiv

4+阅读 · 2018年10月23日

Learning under Misspecified Objective Spaces

Arxiv

3+阅读 · 2018年10月11日

Hierarchical Deep Multiagent Reinforcement Learning

Hierarchical Deep Multiagent Reinforcement Learning

Arxiv

8+阅读 · 2018年9月25日

Deep Reinforcement Learning in Ice Hockey for Context-Aware Player Evaluation

Deep Reinforcement Learning in Ice Hockey for Context-Aware Player Evaluation

Arxiv

5+阅读 · 2018年7月11日

Video Person Re-identification by Temporal Residual Learning

Arxiv

5+阅读 · 2018年2月22日

Spatial-Temporal Memory Networks for Video Object Detection

Arxiv

4+阅读 · 2017年12月18日

VIP会员

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

2+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

4+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

7+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

4+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

6+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

5+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

3+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

8+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

6+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

9+阅读 · 6月22日

相关VIP内容

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

【ICML2020】多视角对比图表示学习，Contrastive Multi-View GRL

【ICML2020】多视角对比图表示学习，Contrastive Multi-View GRL

专知会员服务

80+阅读 · 2020年6月11日

【ACL2020】DeeBERT:动态加速BERT推理，DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference

【ACL2020】DeeBERT:动态加速BERT推理，DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference

专知会员服务

21+阅读 · 2020年4月30日

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

专知会员服务

14+阅读 · 2020年3月27日

【谷歌大脑新论文】利用可微摄动优化器进行学习，Learning with Differentiable Perturbed Optimizers

【谷歌大脑新论文】利用可微摄动优化器进行学习，Learning with Differentiable Perturbed Optimizers

专知会员服务

29+阅读 · 2020年2月22日

【AAAI2020教程】强化学习中的Exploration-Exploitation in Reinforcement Learning

专知会员服务

101+阅读 · 2020年2月8日

【斯坦福大学】Gradient Surgery for Multi-Task Learning

【斯坦福大学】Gradient Surgery for Multi-Task Learning

专知会员服务

47+阅读 · 2020年1月23日

【表示学习(Representation Learning)】8篇 NeurIPS 2019论文选读

专知会员服务

54+阅读 · 2019年12月22日

【ICML2019 tutorial】因果推理和稳定学习（Causal Inference and Stable Learning）

【ICML2019 tutorial】因果推理和稳定学习（Causal Inference and Stable Learning）

专知会员服务

176+阅读 · 2019年12月7日

【图灵奖Yoshua Bengio】ICLR2020论文：一个元转移的目标学习解开因果机制（A Meta-Transfer Objective for Learning to Disentangle Causal Mechanisms）

【图灵奖Yoshua Bengio】ICLR2020论文：一个元转移的目标学习解开因果机制（A Meta-Transfer Objective for Learning to Disentangle Causal Mechanisms）

专知会员服务

55+阅读 · 2019年9月26日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

图灵奖Yoshua Bengio ICLR 2020再出新作：通过元学习发掘因果机制

图灵奖Yoshua Bengio ICLR 2020再出新作：通过元学习发掘因果机制

学术头条

15+阅读 · 2019年12月25日

【微软Alekh等开放新书】强化学习理论与算法，83页pdf，了解最新进展

【微软Alekh等开放新书】强化学习理论与算法，83页pdf，了解最新进展

专知

25+阅读 · 2019年11月23日

论文浅尝 | 时序与因果关系联合推理

论文浅尝 | 时序与因果关系联合推理

开放知识图谱

36+阅读 · 2019年6月23日

推特800赞，DeepMind强化学习综述：她可以很快，但快从慢中来

推特800赞，DeepMind强化学习综述：她可以很快，但快从慢中来

量子位

6+阅读 · 2019年5月3日

你的模型刚不刚？谷歌提出“刚度”概念，探索神经网络泛化新视角

你的模型刚不刚？谷歌提出“刚度”概念，探索神经网络泛化新视角

新智元

9+阅读 · 2019年3月20日

干货 | 强化学习中，如何从稀疏和不明确的反馈中学习泛化

干货 | 强化学习中，如何从稀疏和不明确的反馈中学习泛化

AI科技评论

7+阅读 · 2019年3月1日

DeepMind：用PopArt进行多任务深度强化学习

DeepMind：用PopArt进行多任务深度强化学习

论智

30+阅读 · 2018年9月14日

一文学习基于蒙特卡罗的强化学习方法（送书）

一文学习基于蒙特卡罗的强化学习方法（送书）

人工智能头条

7+阅读 · 2018年3月13日

学界 | DeepMind 16 篇 NIPS 2017 论文，全部信息都在这里了

学界 | DeepMind 16 篇 NIPS 2017 论文，全部信息都在这里了

AI科技评论

4+阅读 · 2017年12月2日

相关论文

Interference and Generalization in Temporal Difference Learning

Arxiv

8+阅读 · 2020年3月13日

Representation Learning with Ordered Relation Paths for Knowledge Graph Completion

Representation Learning with Ordered Relation Paths for Knowledge Graph Completion

Arxiv

12+阅读 · 2019年9月26日

Generalization and Regularization in DQN

Generalization and Regularization in DQN

Arxiv

6+阅读 · 2019年1月30日

Reward learning from human preferences and demonstrations in Atari

Arxiv

8+阅读 · 2018年11月15日

Efficient Eligibility Traces for Deep Reinforcement Learning

Arxiv

4+阅读 · 2018年10月23日

Learning under Misspecified Objective Spaces

Arxiv

3+阅读 · 2018年10月11日

Hierarchical Deep Multiagent Reinforcement Learning

Hierarchical Deep Multiagent Reinforcement Learning

Arxiv

8+阅读 · 2018年9月25日

Deep Reinforcement Learning in Ice Hockey for Context-Aware Player Evaluation

Deep Reinforcement Learning in Ice Hockey for Context-Aware Player Evaluation

Arxiv

5+阅读 · 2018年7月11日

Video Person Re-identification by Temporal Residual Learning

Arxiv

5+阅读 · 2018年2月22日

Spatial-Temporal Memory Networks for Video Object Detection

Arxiv

4+阅读 · 2017年12月18日

微信扫码咨询专知VIP会员