A long-standing goal of reinforcement learning is to acquire agents that can learn on training tasks and generalize well on unseen tasks that may share a similar dynamic but with different reward functions. The ability to generalize across tasks is important as it determines an agent's adaptability to real-world scenarios where reward mechanisms might vary. In this work, we first show that training a general world model can utilize similar structures in these tasks and help train more generalizable agents. Extending world models into the task generalization setting, we introduce a novel method named Task Aware Dreamer (TAD), which integrates reward-informed features to identify consistent latent characteristics across tasks. Within TAD, we compute the variational lower bound of sample data log-likelihood, which introduces a new term designed to differentiate tasks using their states, as the optimization objective of our reward-informed world models. To demonstrate the advantages of the reward-informed policy in TAD, we introduce a new metric called Task Distribution Relevance (TDR) which quantitatively measures the relevance of different tasks. For tasks exhibiting a high TDR, i.e., the tasks differ significantly, we illustrate that Markovian policies struggle to distinguish them, thus it is necessary to utilize reward-informed policies in TAD. Extensive experiments in both image-based and state-based tasks show that TAD can significantly improve the performance of handling different tasks simultaneously, especially for those with high TDR, and display a strong generalization ability to unseen tasks.


翻译:强化学习的一个长期目标是获得能够在训练任务上学习,并在未见任务上表现出良好泛化能力的智能体,这些任务可能具有相似的动态特性但奖励函数不同。跨任务泛化能力至关重要,因为它决定了智能体对现实场景的适应能力,而现实场景中的奖励机制可能存在差异。在本研究中,我们首先证明训练通用世界模型可以利用这些任务中的相似结构,并有助于训练更具泛化能力的智能体。将世界模型扩展至任务泛化场景,我们提出了一种名为任务感知型Dreamer(TAD)的新方法,该方法整合了奖励感知特征以识别跨任务间一致的潜在特性。在TAD框架内,我们计算样本数据对数似然的变分下界作为奖励感知世界模型的优化目标,该下界引入了一个新项,旨在利用任务状态对任务进行区分。为证明TAD中奖励感知策略的优势,我们引入了一种称为任务分布相关性(TDR)的新度量指标,用于定量衡量不同任务间的相关性。对于具有高TDR(即任务差异显著)的任务,我们证明马尔可夫策略难以区分它们,因此有必要在TAD中使用奖励感知策略。在基于图像和基于状态的任务上进行的大量实验表明,TAD能显著提升同时处理不同任务的性能,尤其对于高TDR任务,并展现出对未见任务的强大泛化能力。

0
下载
关闭预览

相关内容

【博士论文】受脑启发的规划:提升强化学习泛化能力
专知会员服务
14+阅读 · 2025年11月13日
深度强化学习中的奖励模型:综述
专知会员服务
29+阅读 · 2025年6月20日
《基于强化学习开发战斗行为》美国海军研究生院
专知会员服务
102+阅读 · 2022年6月27日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
18+阅读 · 2020年9月1日
探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff?
深度强化学习实验室
13+阅读 · 2020年8月23日
基于虚拟现实环境的深度学习模型构建
MOOC
24+阅读 · 2019年9月28日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
22+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2月15日
VIP会员
相关资讯
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
22+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员