Optimistic Transfer under Task Shift via Bellman Alignment - 专知论文

会员服务 ·

0

对齐 · 在线 · 转移概率 · 偏差 · 概率 ·

Optimistic Transfer under Task Shift via Bellman Alignment

翻译：基于贝尔曼对齐的任务迁移下的乐观迁移

Jinhang Chai,Enpei Zhang,Elynn Chen,Yujun Yan

We study online transfer reinforcement learning (RL) in episodic Markov decision processes, where experience from related source tasks is available during learning on a target task. A fundamental difficulty is that task similarity is typically defined in terms of rewards or transitions, whereas online RL algorithms operate on Bellman regression targets. As a result, naively reusing source Bellman updates introduces systematic bias and invalidates regret guarantees. We identify one-step Bellman alignment as the correct abstraction for transfer in online RL and propose re-weighted targeting (RWT), an operator-level correction that retargets continuation values and compensates for transition mismatch via a change of measure. RWT reduces task mismatch to a fixed one-step correction and enables statistically sound reuse of source data. This alignment yields a two-stage RWT $Q$-learning framework that separates variance reduction from bias correction. Under RKHS function approximation, we establish regret bounds that scale with the complexity of the task shift rather than the target MDP. Empirical results in both tabular and neural network settings demonstrate consistent improvements over single-task learning and naïve pooling, highlighting Bellman alignment as a model-agnostic transfer principle for online RL.

翻译：本文研究在线迁移强化学习（RL）问题，该问题在片段式马尔可夫决策过程中进行，其中在目标任务学习期间可获得来自相关源任务的经验。一个根本性困难在于：任务相似性通常依据奖励或转移概率来定义，而在线RL算法则基于贝尔曼回归目标进行操作。因此，直接复用源贝尔曼更新会引入系统性偏差并使遗憾保证失效。我们识别出单步贝尔曼对齐作为在线RL中迁移的正确抽象，并提出重加权目标修正（RWT）——一种算子层面的校正方法，该方法通过测度变换重新设定延续值并补偿转移概率失配。RWT将任务失配简化为固定的单步校正，并支持对源数据进行统计意义上可靠的复用。这种对齐产生了一个两阶段RWT $Q$-学习框架，将方差缩减与偏差校正分离。在RKHS函数逼近下，我们建立了遗憾界，其缩放尺度取决于任务迁移的复杂度而非目标MDP的复杂度。在表格设置和神经网络设置中的实证结果表明，相较于单任务学习和简单池化方法，该方法均取得了一致的改进，凸显了贝尔曼对齐作为在线RL中一种模型无关的迁移原则。

0

相关内容

《雷达任务调度与策略梯度强化学习：为连续观察和行动空间创建环境和智能体》最新报告

《雷达任务调度与策略梯度强化学习：为连续观察和行动空间创建环境和智能体》最新报告

专知会员服务

26+阅读 · 2025年1月22日

《用于水下目标定位的平台便携式强化学习方法》

《用于水下目标定位的平台便携式强化学习方法》

专知会员服务

27+阅读 · 2024年1月2日

如何对齐学习？伯克利博士论文《人本主义奖励设计》，119页pdf阐述大模型中对齐人类输入设计

如何对齐学习？伯克利博士论文《人本主义奖励设计》，119页pdf阐述大模型中对齐人类输入设计

专知会员服务

47+阅读 · 2023年11月20日

【慕尼黑大学博士论文】基于预训练语言模型的高效迁移学习，145页pdf

【慕尼黑大学博士论文】基于预训练语言模型的高效迁移学习，145页pdf

专知会员服务

35+阅读 · 2023年9月15日

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

专知会员服务

61+阅读 · 2023年7月16日

【ICML2022】在线决策Transformer

【ICML2022】在线决策Transformer

专知会员服务

34+阅读 · 2022年7月27日

贝叶斯迁移学习: 迁移学习的概率图模型概述

贝叶斯迁移学习: 迁移学习的概率图模型概述

专知会员服务

70+阅读 · 2021年10月17日

最新《深度强化学习中的迁移学习》综述论文

最新《深度强化学习中的迁移学习》综述论文

专知会员服务

157+阅读 · 2020年9月20日

【IBM】在视觉和关系推理中迁移学习，Transfer Learning in Visual and Relational Reasoning

【IBM】在视觉和关系推理中迁移学习，Transfer Learning in Visual and Relational Reasoning

专知会员服务

45+阅读 · 2020年1月15日

【中科院计算所】迁移学习全面综述论文，A Comprehensive Survey on Transfer Learning，27页pdf，171篇参考文献

【中科院计算所】迁移学习全面综述论文，A Comprehensive Survey on Transfer Learning，27页pdf，171篇参考文献

专知会员服务

99+阅读 · 2019年11月11日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

机器之心

13+阅读 · 2019年10月17日

里昂大学博士学位论文-图像分类中的迁移学习

里昂大学博士学位论文-图像分类中的迁移学习

专知

12+阅读 · 2019年4月10日

迁移自适应学习最新综述，附21页论文下载

迁移自适应学习最新综述，附21页论文下载

专知

34+阅读 · 2019年3月13日

当前最好的非深度迁移学习方法：流形空间下的分布对齐

当前最好的非深度迁移学习方法：流形空间下的分布对齐

PaperWeekly

11+阅读 · 2018年7月31日

迁移学习在深度学习中的应用

迁移学习在深度学习中的应用

专知

24+阅读 · 2017年12月24日

什么是迁移学习？它都用在深度学习的哪些场景上？这篇文章替你讲清楚了

什么是迁移学习？它都用在深度学习的哪些场景上？这篇文章替你讲清楚了

AI100

16+阅读 · 2017年12月23日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

独家 | 一文读懂迁移学习（附学习工具包）

独家 | 一文读懂迁移学习（附学习工具包）

数据派THU

13+阅读 · 2017年7月13日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

概率和平均框架下一系列Sobolev空间中的函数逼近与恢复

国家自然科学基金

1+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

23+阅读 · 2015年12月31日

基于迁移学习的图像隐写分析新方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

Riemann-Hilbert 方法的一致渐近分析及其应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于扩展的概率转移矩阵模型的高精度快速广义门电路可靠性评估方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

Berezin变换及相关的算子理论

国家自然科学基金

1+阅读 · 2014年12月31日

一些几何发展方程中的渐近分析研究

国家自然科学基金

0+阅读 · 2014年12月31日

随机排队网络的强逼近及其相关渐近分析

国家自然科学基金

0+阅读 · 2014年12月31日

Offline RL by Reward-Weighted Fine-Tuning for Conversation Optimization

Arxiv

0+阅读 · 2月16日

Beyond Correctness: Learning Robust Reasoning via Transfer

Arxiv

0+阅读 · 2月9日

Cochain Perspectives on Temporal-Difference Signals for Learning Beyond Markov Dynamics

Arxiv

0+阅读 · 2月6日

Cross-Domain Offline Policy Adaptation via Selective Transition Correction

Arxiv

0+阅读 · 2月5日

ReFORM: Reflected Flows for On-support Offline RL via Noise Manipulation

Arxiv

0+阅读 · 2月4日

Transfer Learning Through Conditional Quantile Matching

Arxiv

0+阅读 · 2月2日

Extending RLVR to Open-Ended Tasks via Verifiable Multiple-Choice Reformulation

Arxiv

0+阅读 · 2月2日

The Trajectory Alignment Coefficient in Two Acts: From Reward Tuning to Reward Learning

Arxiv

0+阅读 · 1月23日

Transfer Learning for Benign Overfitting in High-Dimensional Linear Regression

Arxiv

0+阅读 · 1月16日

Bootstrap Off-policy with World Model

Arxiv

0+阅读 · 1月15日

VIP会员

文章信息

相关主题

最新内容

《利用大语言模型增强多域作战兵棋推演》（报告）

《利用大语言模型增强多域作战兵棋推演》（报告）

专知会员服务

8+阅读 · 4月18日

《增强准备状态与战备水平：态势感知与数据驱动决策》报告

《增强准备状态与战备水平：态势感知与数据驱动决策》报告

专知会员服务

8+阅读 · 4月18日

中文版《可靠定位、导航与授时 (APNT)：美军相关研发项目》报告

中文版《可靠定位、导航与授时 (APNT)：美军相关研发项目》报告

专知会员服务

6+阅读 · 4月18日

《自主武器系统人类-AI指挥控制中的动态管理》（2026最新450页）

《自主武器系统人类-AI指挥控制中的动态管理》（2026最新450页）

专知会员服务

11+阅读 · 4月18日

美智库《实现空军战斗出动架次生成能力：对目标、差距、障碍与解决方案的审视》（报告）

美智库《实现空军战斗出动架次生成能力：对目标、差距、障碍与解决方案的审视》（报告）

专知会员服务

5+阅读 · 4月18日

《大规模作战行动中争夺情报优势：情报与电子战营-下一代角色探析》（报告）

《大规模作战行动中争夺情报优势：情报与电子战营-下一代角色探析》（报告）

专知会员服务

8+阅读 · 4月18日

人工智能在战场行动中的演进及伊朗案例

人工智能在战场行动中的演进及伊朗案例

专知会员服务

6+阅读 · 4月18日

美AI公司Anthropic推出网络安全模型“Mythos”

美AI公司Anthropic推出网络安全模型“Mythos”

专知会员服务

4+阅读 · 4月18日

【博士论文】面向城市环境的可解释计算机视觉

【博士论文】面向城市环境的可解释计算机视觉

专知会员服务

4+阅读 · 4月18日

【CVPR2026】SEATrack：一种简明、高效且具备自适应能力的多模态跟踪器

【CVPR2026】SEATrack：一种简明、高效且具备自适应能力的多模态跟踪器

专知会员服务

3+阅读 · 4月18日

大语言模型的自改进机制：技术综述与未来展望

大语言模型的自改进机制：技术综述与未来展望

专知会员服务

5+阅读 · 4月18日

《面向战术决策的广义智能：大语言模型驱动的动态武器-目标分配》

《面向战术决策的广义智能：大语言模型驱动的动态武器-目标分配》

专知会员服务

10+阅读 · 4月18日

《分布式军事人工智能理论：部分可观测与通信条件下的协调约束多智能体强化学习》

《分布式军事人工智能理论：部分可观测与通信条件下的协调约束多智能体强化学习》

专知会员服务

11+阅读 · 4月18日

《第四代军事特种作战部队选拔与评估》

《第四代军事特种作战部队选拔与评估》

专知会员服务

3+阅读 · 4月18日

《迈向可解释强化学习及面向战略决策的定制化学习基准》（70页）

《迈向可解释强化学习及面向战略决策的定制化学习基准》（70页）

专知会员服务

6+阅读 · 4月18日

相关VIP内容

《雷达任务调度与策略梯度强化学习：为连续观察和行动空间创建环境和智能体》最新报告

《雷达任务调度与策略梯度强化学习：为连续观察和行动空间创建环境和智能体》最新报告

专知会员服务

26+阅读 · 2025年1月22日

《用于水下目标定位的平台便携式强化学习方法》

《用于水下目标定位的平台便携式强化学习方法》

专知会员服务

27+阅读 · 2024年1月2日

如何对齐学习？伯克利博士论文《人本主义奖励设计》，119页pdf阐述大模型中对齐人类输入设计

如何对齐学习？伯克利博士论文《人本主义奖励设计》，119页pdf阐述大模型中对齐人类输入设计

专知会员服务

47+阅读 · 2023年11月20日

【慕尼黑大学博士论文】基于预训练语言模型的高效迁移学习，145页pdf

【慕尼黑大学博士论文】基于预训练语言模型的高效迁移学习，145页pdf

专知会员服务

35+阅读 · 2023年9月15日

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

专知会员服务

61+阅读 · 2023年7月16日

【ICML2022】在线决策Transformer

【ICML2022】在线决策Transformer

专知会员服务

34+阅读 · 2022年7月27日

贝叶斯迁移学习: 迁移学习的概率图模型概述

贝叶斯迁移学习: 迁移学习的概率图模型概述

专知会员服务

70+阅读 · 2021年10月17日

最新《深度强化学习中的迁移学习》综述论文

最新《深度强化学习中的迁移学习》综述论文

专知会员服务

157+阅读 · 2020年9月20日

【IBM】在视觉和关系推理中迁移学习，Transfer Learning in Visual and Relational Reasoning

【IBM】在视觉和关系推理中迁移学习，Transfer Learning in Visual and Relational Reasoning

专知会员服务

45+阅读 · 2020年1月15日

【中科院计算所】迁移学习全面综述论文，A Comprehensive Survey on Transfer Learning，27页pdf，171篇参考文献

【中科院计算所】迁移学习全面综述论文，A Comprehensive Survey on Transfer Learning，27页pdf，171篇参考文献

专知会员服务

99+阅读 · 2019年11月11日

热门VIP内容

开通专知VIP会员享更多权益服务

《增强准备状态与战备水平：态势感知与数据驱动决策》报告

《自主武器系统人类-AI指挥控制中的动态管理》（2026最新450页）

《利用大语言模型增强多域作战兵棋推演》（报告）

中文版《可靠定位、导航与授时 (APNT)：美军相关研发项目》报告

相关资讯

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

机器之心

13+阅读 · 2019年10月17日

里昂大学博士学位论文-图像分类中的迁移学习

里昂大学博士学位论文-图像分类中的迁移学习

专知

12+阅读 · 2019年4月10日

迁移自适应学习最新综述，附21页论文下载

迁移自适应学习最新综述，附21页论文下载

专知

34+阅读 · 2019年3月13日

当前最好的非深度迁移学习方法：流形空间下的分布对齐

当前最好的非深度迁移学习方法：流形空间下的分布对齐

PaperWeekly

11+阅读 · 2018年7月31日

迁移学习在深度学习中的应用

迁移学习在深度学习中的应用

专知

24+阅读 · 2017年12月24日

什么是迁移学习？它都用在深度学习的哪些场景上？这篇文章替你讲清楚了

什么是迁移学习？它都用在深度学习的哪些场景上？这篇文章替你讲清楚了

AI100

16+阅读 · 2017年12月23日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

独家 | 一文读懂迁移学习（附学习工具包）

独家 | 一文读懂迁移学习（附学习工具包）

数据派THU

13+阅读 · 2017年7月13日

相关论文

Offline RL by Reward-Weighted Fine-Tuning for Conversation Optimization

Arxiv

0+阅读 · 2月16日

Beyond Correctness: Learning Robust Reasoning via Transfer

Arxiv

0+阅读 · 2月9日

Cochain Perspectives on Temporal-Difference Signals for Learning Beyond Markov Dynamics

Arxiv

0+阅读 · 2月6日

Cross-Domain Offline Policy Adaptation via Selective Transition Correction

Arxiv

0+阅读 · 2月5日

ReFORM: Reflected Flows for On-support Offline RL via Noise Manipulation

Arxiv

0+阅读 · 2月4日

Transfer Learning Through Conditional Quantile Matching

Arxiv

0+阅读 · 2月2日

Extending RLVR to Open-Ended Tasks via Verifiable Multiple-Choice Reformulation

Arxiv

0+阅读 · 2月2日

The Trajectory Alignment Coefficient in Two Acts: From Reward Tuning to Reward Learning

Arxiv

0+阅读 · 1月23日

Transfer Learning for Benign Overfitting in High-Dimensional Linear Regression

Arxiv

0+阅读 · 1月16日

Bootstrap Off-policy with World Model

Arxiv

0+阅读 · 1月15日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

概率和平均框架下一系列Sobolev空间中的函数逼近与恢复

国家自然科学基金

1+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

23+阅读 · 2015年12月31日

基于迁移学习的图像隐写分析新方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

Riemann-Hilbert 方法的一致渐近分析及其应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于扩展的概率转移矩阵模型的高精度快速广义门电路可靠性评估方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

Berezin变换及相关的算子理论

国家自然科学基金

1+阅读 · 2014年12月31日

一些几何发展方程中的渐近分析研究

国家自然科学基金

0+阅读 · 2014年12月31日

随机排队网络的强逼近及其相关渐近分析

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员