Zero-shot reinforcement learning (RL) has emerged as a setting for developing general agents, capable of solving downstream tasks without additional training or planning at test-time. While conventional RL optimizes policies for fixed rewards, zero-shot RL requires learning representations that enable immediate adaptation to arbitrary reward functions. As the field matures, the growing diversity of approaches demands a foundational framework reconciling different perspectives under a common unifying structure. In this work, we introduce a formal, unified framework for zero-shot RL, allowing for rigorous comparisons across methods. We propose a taxonomy organizing the algorithmic landscape along two levels: representation, distinguishing between compositional and direct methods based on their exploitation of action-value function decompositions; and learning paradigm, differentiating between reward-free and pseudo reward-free training. Additionally, we propose a unified view of existing error bounds, decomposing the total error into three primary contributing components: inference, reward, and approximation, serving as a foundation for more grounded comparisons of zero-shot methods.


翻译:零样本强化学习已成为开发通用智能体的一种设定,使智能体能够在测试时无需额外训练或规划即可解决下游任务。传统强化学习针对固定奖励函数优化策略,而零样本强化学习则需要学习能够立即适应任意奖励函数的表示。随着该领域的成熟,日益多样化的方法需要一个基础性框架,在统一结构下调和不同视角。本研究提出一个形式化的零样本强化学习统一框架,支持不同方法间的严格比较。我们提出一种分类法,从两个层面组织算法体系:在表示层面,根据对动作价值函数分解的利用方式,区分为组合式方法与直接式方法;在学习范式层面,区分无奖励训练与伪无奖励训练。此外,我们提出对现有误差界的统一视角,将总误差分解为三个主要构成部分:推断误差、奖励误差与近似误差,为零样本方法的更基础比较提供理论依据。

0
下载
关闭预览

相关内容

【NeurIPS2025】迈向鲁棒的零样本强化学习
专知会员服务
14+阅读 · 2025年10月20日
【牛津博士论文】零样本强化学习综述
专知会员服务
31+阅读 · 2025年8月25日
零样本量化:综述
专知会员服务
12+阅读 · 2025年5月15日
【WWW2021】本体增强零样本学习
专知会员服务
35+阅读 · 2021年2月26日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
97+阅读 · 2020年5月31日
新加坡南洋理工最新37页《零样本学习综述》论文
专知会员服务
114+阅读 · 2019年10月20日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Zero-Shot Learning相关资源大列表
专知
52+阅读 · 2019年1月1日
一文了解强化学习
AI100
15+阅读 · 2018年8月20日
基于强化学习的量化交易框架
机器学习研究会
30+阅读 · 2018年2月22日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2月2日
VIP会员
相关VIP内容
【NeurIPS2025】迈向鲁棒的零样本强化学习
专知会员服务
14+阅读 · 2025年10月20日
【牛津博士论文】零样本强化学习综述
专知会员服务
31+阅读 · 2025年8月25日
零样本量化:综述
专知会员服务
12+阅读 · 2025年5月15日
【WWW2021】本体增强零样本学习
专知会员服务
35+阅读 · 2021年2月26日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
97+阅读 · 2020年5月31日
新加坡南洋理工最新37页《零样本学习综述》论文
专知会员服务
114+阅读 · 2019年10月20日
相关资讯
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Zero-Shot Learning相关资源大列表
专知
52+阅读 · 2019年1月1日
一文了解强化学习
AI100
15+阅读 · 2018年8月20日
基于强化学习的量化交易框架
机器学习研究会
30+阅读 · 2018年2月22日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员