A Controlled Study of Double DQN and Dueling DQN Under Cross-Environment Transfer - 专知论文

会员服务 ·

0

DQN · 相同 · 基线 · 深度强化学习 · 高稳定 ·

A Controlled Study of Double DQN and Dueling DQN Under Cross-Environment Transfer

翻译：跨环境迁移下Double DQN与Dueling DQN的对照研究

Azka Nasir,Fatima Dossa,Muhammad Ahmed Atif,Mohammad Ahmed Atif

Transfer learning in deep reinforcement learning is often motivated by improved stability and reduced training cost, but it can also fail under substantial domain shift. This paper presents a controlled empirical study examining how architectural differences between Double Deep Q-Networks (DDQN) and Dueling DQN influence transfer behavior across environments. Using CartPole as a source task and LunarLander as a structurally distinct target task, we evaluate a fixed layer-wise representation transfer protocol under identical hyperparameters and training conditions, with baseline agents trained from scratch used to contextualize transfer effects. Empirical results show that DDQN consistently avoids negative transfer under the examined setup and maintains learning dynamics comparable to baseline performance in the target environment. In contrast, Dueling DQN consistently exhibits negative transfer under identical conditions, characterized by degraded rewards and unstable optimization behavior. Statistical analysis across multiple random seeds confirms a significant performance gap under transfer. These findings suggest that architectural inductive bias is strongly associated with robustness to cross-environment transfer in value-based deep reinforcement learning under the examined transfer protocol.

翻译：深度强化学习中的迁移学习通常旨在提高稳定性和降低训练成本，但在显著的领域偏移下也可能失败。本文提出一项对照实证研究，探讨Double Deep Q-Networks（DDQN）与Dueling DQN之间的架构差异如何影响跨环境的迁移行为。以CartPole作为源任务，以结构不同的LunarLander作为目标任务，我们在相同的超参数和训练条件下评估固定的分层表征迁移方案，并使用从头开始训练的基线智能体来量化迁移效果。实证结果表明，在所考察的设置下，DDQN始终能避免负迁移，并在目标环境中保持与基线性能相当的学习动态。相比之下，在相同条件下，Dueling DQN始终表现出负迁移，其特征是奖励下降和优化行为不稳定。基于多个随机种子的统计分析证实了迁移下存在显著的性能差距。这些发现表明，在所考察的迁移方案下，架构归纳偏置与基于价值的深度强化学习在跨环境迁移中的鲁棒性密切相关。

0

相关内容

DQN

【伯克利博士论文】学习在动态环境中泛化，103页pdf

【伯克利博士论文】学习在动态环境中泛化，103页pdf

专知会员服务

72+阅读 · 2022年10月12日

【伯克利博士论文】学习跨领域的可迁移表示

【伯克利博士论文】学习跨领域的可迁移表示

专知会员服务

47+阅读 · 2022年8月17日

最新《大间隔学习》综述论文，清华大学张长水老师等

专知会员服务

19+阅读 · 2021年4月3日

基于双注意力机制和迁移学习的跨领域推荐模型

专知会员服务

48+阅读 · 2020年10月20日

最新《深度强化学习中的迁移学习》综述论文

最新《深度强化学习中的迁移学习》综述论文

专知会员服务

157+阅读 · 2020年9月20日

最新《自然语言处理迁移学习》综述论文，A Survey on Transfer Learning in Natural Language Processing

最新《自然语言处理迁移学习》综述论文，A Survey on Transfer Learning in Natural Language Processing

专知会员服务

140+阅读 · 2020年7月10日

【CVPR2020-浙江大学-阿里巴巴】深层知识迁移的深层归因图，DEPARA: Deep Attribution Graph for Deep Knowledge Transferability

【CVPR2020-浙江大学-阿里巴巴】深层知识迁移的深层归因图，DEPARA: Deep Attribution Graph for Deep Knowledge Transferability

专知会员服务

29+阅读 · 2020年4月17日

【论文推荐】深度学习中的异常实例检测:综述，Anomalous Instance Detection in Deep Learning: A Survey

【论文推荐】深度学习中的异常实例检测:综述，Anomalous Instance Detection in Deep Learning: A Survey

专知会员服务

97+阅读 · 2020年3月17日

【NLP模型的跨语言/跨领域迁移】《Transferring NLP models across languages and domains》

【NLP模型的跨语言/跨领域迁移】《Transferring NLP models across languages and domains》

专知会员服务

43+阅读 · 2019年11月25日

【中科院计算所】迁移学习全面综述论文，A Comprehensive Survey on Transfer Learning，27页pdf，171篇参考文献

【中科院计算所】迁移学习全面综述论文，A Comprehensive Survey on Transfer Learning，27页pdf，171篇参考文献

专知会员服务

99+阅读 · 2019年11月11日

300+篇文献！一文详解基于Transformer的多模态学习最新进展

300+篇文献！一文详解基于Transformer的多模态学习最新进展

PaperWeekly

13+阅读 · 2022年7月1日

【综述】迁移自适应学习十年进展

【综述】迁移自适应学习十年进展

专知

41+阅读 · 2019年11月26日

中科院发布最新迁移学习综述论文，带你全面了解40种迁移学习方法

中科院发布最新迁移学习综述论文，带你全面了解40种迁移学习方法

专知

48+阅读 · 2019年11月12日

里昂大学博士学位论文-图像分类中的迁移学习

里昂大学博士学位论文-图像分类中的迁移学习

专知

12+阅读 · 2019年4月10日

最新《生成式对抗网络GAN进展》论文

最新《生成式对抗网络GAN进展》论文

专知

95+阅读 · 2019年4月5日

迁移自适应学习最新综述，附21页论文下载

迁移自适应学习最新综述，附21页论文下载

专知

34+阅读 · 2019年3月13日

【论文推荐】最新六篇生成式对抗网络（GAN）相关论文—半监督学习、对偶、交互生成对抗网络、激活、纳什均衡、tempoGAN

【论文推荐】最新六篇生成式对抗网络（GAN）相关论文—半监督学习、对偶、交互生成对抗网络、激活、纳什均衡、tempoGAN

专知

23+阅读 · 2018年2月23日

【迁移学习】简述迁移学习在深度学习中的应用

【迁移学习】简述迁移学习在深度学习中的应用

产业智能官

15+阅读 · 2018年1月9日

迁移学习在深度学习中的应用

迁移学习在深度学习中的应用

专知

24+阅读 · 2017年12月24日

什么是迁移学习？它都用在深度学习的哪些场景上？这篇文章替你讲清楚了

什么是迁移学习？它都用在深度学习的哪些场景上？这篇文章替你讲清楚了

AI100

16+阅读 · 2017年12月23日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

面向多云块并行移动计算迁移的环境自适应程序分割技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

动态稀疏双扩展信道下的多用户通信研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于迁移学习的图像隐写分析新方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

相互依存网络上耦合动力学研究

国家自然科学基金

0+阅读 · 2015年12月31日

两栖动物适应高海拔生境的分子基础——基于抗氧化多肽组学的新探索

国家自然科学基金

0+阅读 · 2014年12月31日

陆地碳数据同化中的模型“异参同效”问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

双通道时空混合相移干涉系统及相关问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

种群遗传学的多人交互式学习研究

国家自然科学基金

0+阅读 · 2014年12月31日

在多尺度系统中具有稳定性交替的空间对照结构研究

国家自然科学基金

1+阅读 · 2014年12月31日

On the Adversarial Transferability of Generalized "Skip Connections"

Arxiv

0+阅读 · 3月16日

Cross-Domain Policy Optimization via Bellman Consistency and Hybrid Critics

Arxiv

0+阅读 · 3月12日

Transfer Learning in Infinite Width Feature Learning Networks

Arxiv

0+阅读 · 2月24日

Transfer Learning with Network Embeddings under Structured Missingness

Arxiv

0+阅读 · 2月23日

Study of Training Dynamics for Memory-Constrained Fine-Tuning

Arxiv

0+阅读 · 2月20日

Doubly Stochastic Mean-Shift Clustering

Arxiv

0+阅读 · 2月17日

An Introduction to Double/Debiased Machine Learning

Arxiv

0+阅读 · 2月12日

Towards Uniformity and Alignment for Multimodal Representation Learning

Arxiv

0+阅读 · 2月10日

Federated Learning with Profile Mapping under Distribution Shifts and Drifts

Arxiv

0+阅读 · 2月7日

An Adaptive Differentially Private Federated Learning Framework with Bi-level Optimization

Arxiv

0+阅读 · 2月6日

VIP会员

文章信息

相关主题

深度强化学习

最新内容

【斯坦福博士论文】语言模型的机械可解释性与控制

【斯坦福博士论文】语言模型的机械可解释性与控制

专知会员服务

0+阅读 · 今天13:13

大语言模型智能体长期记忆安全性综述：迈向记忆主权

大语言模型智能体长期记忆安全性综述：迈向记忆主权

专知会员服务

0+阅读 · 今天13:08

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

专知会员服务

3+阅读 · 今天7:11

人工智能赋能无人机：俄乌战争（万字长文）

人工智能赋能无人机：俄乌战争（万字长文）

专知会员服务

5+阅读 · 今天6:56

国外海军作战管理系统与作战训练系统

国外海军作战管理系统与作战训练系统

专知会员服务

2+阅读 · 今天4:16

美军条令《海军陆战队规划流程（2026版）》

美军条令《海军陆战队规划流程（2026版）》

专知会员服务

10+阅读 · 今天3:36

《压缩式分布式交互仿真标准》120页

《压缩式分布式交互仿真标准》120页

专知会员服务

4+阅读 · 今天3:21

《电子战数据交换模型研究报告》

《电子战数据交换模型研究报告》

专知会员服务

6+阅读 · 今天3:13

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

专知会员服务

4+阅读 · 今天2:55

《基于Transformer的异常舰船导航识别与跟踪》80页

《基于Transformer的异常舰船导航识别与跟踪》80页

专知会员服务

7+阅读 · 今天2:45

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

专知会员服务

6+阅读 · 今天2:41

《低数据领域军事目标检测模型研究》

《低数据领域军事目标检测模型研究》

专知会员服务

6+阅读 · 今天2:37

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

专知会员服务

6+阅读 · 今天2:32

【CMU博士论文】物理世界的视觉感知与深度理解

【CMU博士论文】物理世界的视觉感知与深度理解

专知会员服务

10+阅读 · 4月22日

多智能体系统：从经典范式到大基础模型驱动的未来

多智能体系统：从经典范式到大基础模型驱动的未来

专知会员服务

17+阅读 · 4月22日

相关VIP内容

【伯克利博士论文】学习在动态环境中泛化，103页pdf

【伯克利博士论文】学习在动态环境中泛化，103页pdf

专知会员服务

72+阅读 · 2022年10月12日

【伯克利博士论文】学习跨领域的可迁移表示

【伯克利博士论文】学习跨领域的可迁移表示

专知会员服务

47+阅读 · 2022年8月17日

最新《大间隔学习》综述论文，清华大学张长水老师等

专知会员服务

19+阅读 · 2021年4月3日

基于双注意力机制和迁移学习的跨领域推荐模型

专知会员服务

48+阅读 · 2020年10月20日

最新《深度强化学习中的迁移学习》综述论文

最新《深度强化学习中的迁移学习》综述论文

专知会员服务

157+阅读 · 2020年9月20日

最新《自然语言处理迁移学习》综述论文，A Survey on Transfer Learning in Natural Language Processing

最新《自然语言处理迁移学习》综述论文，A Survey on Transfer Learning in Natural Language Processing

专知会员服务

140+阅读 · 2020年7月10日

【CVPR2020-浙江大学-阿里巴巴】深层知识迁移的深层归因图，DEPARA: Deep Attribution Graph for Deep Knowledge Transferability

【CVPR2020-浙江大学-阿里巴巴】深层知识迁移的深层归因图，DEPARA: Deep Attribution Graph for Deep Knowledge Transferability

专知会员服务

29+阅读 · 2020年4月17日

【论文推荐】深度学习中的异常实例检测:综述，Anomalous Instance Detection in Deep Learning: A Survey

【论文推荐】深度学习中的异常实例检测:综述，Anomalous Instance Detection in Deep Learning: A Survey

专知会员服务

97+阅读 · 2020年3月17日

【NLP模型的跨语言/跨领域迁移】《Transferring NLP models across languages and domains》

【NLP模型的跨语言/跨领域迁移】《Transferring NLP models across languages and domains》

专知会员服务

43+阅读 · 2019年11月25日

【中科院计算所】迁移学习全面综述论文，A Comprehensive Survey on Transfer Learning，27页pdf，171篇参考文献

【中科院计算所】迁移学习全面综述论文，A Comprehensive Survey on Transfer Learning，27页pdf，171篇参考文献

专知会员服务

99+阅读 · 2019年11月11日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型智能体长期记忆安全性综述：迈向记忆主权

人工智能赋能无人机：俄乌战争（万字长文）

【斯坦福博士论文】语言模型的机械可解释性与控制

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

相关资讯

300+篇文献！一文详解基于Transformer的多模态学习最新进展

300+篇文献！一文详解基于Transformer的多模态学习最新进展

PaperWeekly

13+阅读 · 2022年7月1日

【综述】迁移自适应学习十年进展

【综述】迁移自适应学习十年进展

专知

41+阅读 · 2019年11月26日

中科院发布最新迁移学习综述论文，带你全面了解40种迁移学习方法

中科院发布最新迁移学习综述论文，带你全面了解40种迁移学习方法

专知

48+阅读 · 2019年11月12日

里昂大学博士学位论文-图像分类中的迁移学习

里昂大学博士学位论文-图像分类中的迁移学习

专知

12+阅读 · 2019年4月10日

最新《生成式对抗网络GAN进展》论文

最新《生成式对抗网络GAN进展》论文

专知

95+阅读 · 2019年4月5日

迁移自适应学习最新综述，附21页论文下载

迁移自适应学习最新综述，附21页论文下载

专知

34+阅读 · 2019年3月13日

【论文推荐】最新六篇生成式对抗网络（GAN）相关论文—半监督学习、对偶、交互生成对抗网络、激活、纳什均衡、tempoGAN

【论文推荐】最新六篇生成式对抗网络（GAN）相关论文—半监督学习、对偶、交互生成对抗网络、激活、纳什均衡、tempoGAN

专知

23+阅读 · 2018年2月23日

【迁移学习】简述迁移学习在深度学习中的应用

【迁移学习】简述迁移学习在深度学习中的应用

产业智能官

15+阅读 · 2018年1月9日

迁移学习在深度学习中的应用

迁移学习在深度学习中的应用

专知

24+阅读 · 2017年12月24日

什么是迁移学习？它都用在深度学习的哪些场景上？这篇文章替你讲清楚了

什么是迁移学习？它都用在深度学习的哪些场景上？这篇文章替你讲清楚了

AI100

16+阅读 · 2017年12月23日

相关论文

On the Adversarial Transferability of Generalized "Skip Connections"

Arxiv

0+阅读 · 3月16日

Cross-Domain Policy Optimization via Bellman Consistency and Hybrid Critics

Arxiv

0+阅读 · 3月12日

Transfer Learning in Infinite Width Feature Learning Networks

Arxiv

0+阅读 · 2月24日

Transfer Learning with Network Embeddings under Structured Missingness

Arxiv

0+阅读 · 2月23日

Study of Training Dynamics for Memory-Constrained Fine-Tuning

Arxiv

0+阅读 · 2月20日

Doubly Stochastic Mean-Shift Clustering

Arxiv

0+阅读 · 2月17日

An Introduction to Double/Debiased Machine Learning

Arxiv

0+阅读 · 2月12日

Towards Uniformity and Alignment for Multimodal Representation Learning

Arxiv

0+阅读 · 2月10日

Federated Learning with Profile Mapping under Distribution Shifts and Drifts

Arxiv

0+阅读 · 2月7日

An Adaptive Differentially Private Federated Learning Framework with Bi-level Optimization

Arxiv

0+阅读 · 2月6日

相关基金

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

面向多云块并行移动计算迁移的环境自适应程序分割技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

动态稀疏双扩展信道下的多用户通信研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于迁移学习的图像隐写分析新方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

相互依存网络上耦合动力学研究

国家自然科学基金

0+阅读 · 2015年12月31日

两栖动物适应高海拔生境的分子基础——基于抗氧化多肽组学的新探索

国家自然科学基金

0+阅读 · 2014年12月31日

陆地碳数据同化中的模型“异参同效”问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

双通道时空混合相移干涉系统及相关问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

种群遗传学的多人交互式学习研究

国家自然科学基金

0+阅读 · 2014年12月31日

在多尺度系统中具有稳定性交替的空间对照结构研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员