Data-Driven Knowledge Transfer in Batch $Q^*$ Learning - 专知论文

会员服务 ·

0

知识 · 知识迁移 · 数据驱动 · 样本 · 高维 ·

Data-Driven Knowledge Transfer in Batch $Q^*$ Learning

翻译：数据驱动的批量$Q^*$学习中的知识迁移

Elynn Chen,Xi Chen,Wenbo Jing

In data-driven decision-making in marketing, healthcare, and education, it is desirable to utilize a large amount of data from existing ventures to navigate high-dimensional feature spaces and address data scarcity in new ventures. We explore knowledge transfer in dynamic decision-making by concentrating on batch stationary environments and formally defining task discrepancies through the lens of Markov decision processes (MDPs). We propose a framework of Transferred Fitted $Q$-Iteration algorithm with general function approximation, enabling the direct estimation of the optimal action-state function $Q^*$ using both target and source data. We establish the relationship between statistical performance and MDP task discrepancy under sieve approximation, shedding light on the impact of source and target sample sizes and task discrepancy on the effectiveness of knowledge transfer. We show that the final learning error of the $Q^*$ function is significantly improved from the single task rate both theoretically and empirically.

翻译：在营销、医疗和教育领域的数据驱动决策中，利用现有项目的大量数据来导航高维特征空间并解决新项目中的数据稀缺问题具有重要价值。我们通过聚焦于批量平稳环境，并从马尔可夫决策过程（MDPs）的视角形式化定义任务差异，来探索动态决策中的知识迁移。我们提出了一个具有通用函数逼近的迁移拟合$Q$迭代算法框架，能够同时利用目标数据和源数据直接估计最优动作-状态函数$Q^*$。我们在筛近似下建立了统计性能与MDP任务差异之间的关系，揭示了源样本与目标样本规模以及任务差异对知识迁移效果的影响。我们从理论和实证两方面证明，$Q^*$函数的最终学习误差相较于单任务学习速率有显著改善。

0

相关内容

【牛津大学博士论文】序列决策中的迁移学习

【牛津大学博士论文】序列决策中的迁移学习

专知会员服务

24+阅读 · 2024年11月10日

【ICML2022】CtrlFormer: 通过Transformer学习视觉控制的可迁移状态表示

【ICML2022】CtrlFormer: 通过Transformer学习视觉控制的可迁移状态表示

专知会员服务

16+阅读 · 2022年6月21日

《数据驱动的科学与工程——机器学习、动力系统与控制》，572页pdf

《数据驱动的科学与工程——机器学习、动力系统与控制》，572页pdf

专知会员服务

199+阅读 · 2021年2月17日

【Google】大迁移：通用视觉表示学习，General Visual Representation Learning

【Google】大迁移：通用视觉表示学习，General Visual Representation Learning

专知会员服务

37+阅读 · 2020年5月9日

【CVPR2020-浙江大学-阿里巴巴】深层知识迁移的深层归因图，DEPARA: Deep Attribution Graph for Deep Knowledge Transferability

【CVPR2020-浙江大学-阿里巴巴】深层知识迁移的深层归因图，DEPARA: Deep Attribution Graph for Deep Knowledge Transferability

专知会员服务

29+阅读 · 2020年4月17日

【CVPR2020-Oral-浙江大学】深度知识迁移的深度归因图，DEPARA: Deep Attribution Graph

【CVPR2020-Oral-浙江大学】深度知识迁移的深度归因图，DEPARA: Deep Attribution Graph

专知会员服务

27+阅读 · 2020年3月19日

【AAAI2020-Tutorial-Penn】迁移表示学习最新进展，Recent Advances in Transferable Representation Learning

【AAAI2020-Tutorial-Penn】迁移表示学习最新进展，Recent Advances in Transferable Representation Learning

专知会员服务

52+阅读 · 2020年2月8日

【IBM】在视觉和关系推理中迁移学习，Transfer Learning in Visual and Relational Reasoning

【IBM】在视觉和关系推理中迁移学习，Transfer Learning in Visual and Relational Reasoning

专知会员服务

45+阅读 · 2020年1月15日

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

专知会员服务

13+阅读 · 2019年11月17日

【中科院计算所】迁移学习全面综述论文，A Comprehensive Survey on Transfer Learning，27页pdf，171篇参考文献

【中科院计算所】迁移学习全面综述论文，A Comprehensive Survey on Transfer Learning，27页pdf，171篇参考文献

专知会员服务

99+阅读 · 2019年11月11日

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

机器之心

13+阅读 · 2019年10月17日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

TensorFlow动态图5行代码实现迁移学习 - 识别转变风格的MNIST

TensorFlow动态图5行代码实现迁移学习 - 识别转变风格的MNIST

专知

18+阅读 · 2019年4月26日

用一行tf.data实现数据Shuffle、Batch划分、异步预加载等

用一行tf.data实现数据Shuffle、Batch划分、异步预加载等

专知

21+阅读 · 2019年3月26日

一文了解迁移学习经典算法

一文了解迁移学习经典算法

AI100

11+阅读 · 2018年8月4日

迁移学习之Domain Adaptation

迁移学习之Domain Adaptation

全球人工智能

18+阅读 · 2018年4月11日

【迁移学习】迁移学习的干货学习资料 | 干货分享 | 技术解读

【迁移学习】迁移学习的干货学习资料 | 干货分享 | 技术解读

产业智能官

15+阅读 · 2018年1月2日

迁移学习在深度学习中的应用

迁移学习在深度学习中的应用

专知

24+阅读 · 2017年12月24日

什么是迁移学习？它都用在深度学习的哪些场景上？这篇文章替你讲清楚了

什么是迁移学习？它都用在深度学习的哪些场景上？这篇文章替你讲清楚了

AI100

16+阅读 · 2017年12月23日

【迁移学习】中科院计算所王晋东：迁移学习的发展和现状

【迁移学习】中科院计算所王晋东：迁移学习的发展和现状

产业智能官

23+阅读 · 2017年11月21日

删失数据超高维共线性模型的变量选择

国家自然科学基金

0+阅读 · 2017年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

16+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于强化学习的分布参数系统数据驱动控制

国家自然科学基金

7+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

高维混合数据异常知识发现的粒计算模型关键问题研究

国家自然科学基金

1+阅读 · 2014年12月31日

Active Transfer Bagging: A New Approach for Accelerated Active Learning Acquisition of Data by Combined Transfer Learning and Bagging Based Models

Arxiv

0+阅读 · 2月2日

Transfer Learning Through Conditional Quantile Matching

Arxiv

0+阅读 · 2月2日

Achieving $\varepsilon^{-2}$ Dependence for Average-Reward Q-Learning with a New Contraction Principle

Arxiv

0+阅读 · 1月29日

Transfer learning for scalar-on-function regression via control variates

Arxiv

0+阅读 · 1月23日

Composite Flow Matching for Reinforcement Learning with Shifted-Dynamics Data

Arxiv

0+阅读 · 1月21日

From Tags to Trees: Structuring Fine-Grained Knowledge for Controllable Data Selection in LLM Instruction Tuning

Arxiv

0+阅读 · 1月20日

Data-Driven Dynamic Factor Modeling via Manifold Learning

Arxiv

0+阅读 · 1月15日

Task Prototype-Based Knowledge Retrieval for Multi-Task Learning from Partially Annotated Data

Arxiv

0+阅读 · 1月12日

Inverse Q-Learning Done Right: Offline Imitation Learning in $Q^π$-Realizable MDPs

Arxiv

0+阅读 · 1月8日

Sparse Offline Reinforcement Learning with Corruption Robustness

Arxiv

0+阅读 · 2025年12月31日

VIP会员

文章信息

相关主题

最新内容

2026“人工智能+”行业发展蓝皮书（附下载）

2026“人工智能+”行业发展蓝皮书（附下载）

专知会员服务

9+阅读 · 4月26日

《强化学习数学基础》

《强化学习数学基础》

专知会员服务

5+阅读 · 4月26日

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

专知会员服务

7+阅读 · 4月26日

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

专知会员服务

5+阅读 · 4月26日

深入Maven智能系统：Palantir基于Claude打造的军事大脑

深入Maven智能系统：Palantir基于Claude打造的军事大脑

专知会员服务

12+阅读 · 4月26日

“Maven计划”的发展演变之“Maven智能系统”应用

“Maven计划”的发展演变之“Maven智能系统”应用

专知会员服务

10+阅读 · 4月26日

伊朗的无人机蜂群策略如何挑战美国防御系统：人工智能驱动的无人机战争与现代冲突的转型

伊朗的无人机蜂群策略如何挑战美国防御系统：人工智能驱动的无人机战争与现代冲突的转型

专知会员服务

7+阅读 · 4月26日

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

专知会员服务

7+阅读 · 4月26日

加拿大国防部发布项目需求：用于高级态势决策的多模态人工智能

加拿大国防部发布项目需求：用于高级态势决策的多模态人工智能

专知会员服务

6+阅读 · 4月26日

《无人机革命：来自俄乌战场的启示》（报告）

《无人机革命：来自俄乌战场的启示》（报告）

专知会员服务

9+阅读 · 4月26日

《实现联合作战能力所需的技术》58页报告

《实现联合作战能力所需的技术》58页报告

专知会员服务

7+阅读 · 4月26日

《算法化目标定位：人工智能在以色列加沙打击行动中的作用及其伦理影响》（中文版）

《算法化目标定位：人工智能在以色列加沙打击行动中的作用及其伦理影响》（中文版）

专知会员服务

8+阅读 · 4月26日

以色列运用人工智能优化空袭警报系统

以色列运用人工智能优化空袭警报系统

专知会员服务

5+阅读 · 4月26日

以色列在多条战线部署AI智能体

以色列在多条战线部署AI智能体

专知会员服务

7+阅读 · 4月26日

《将形式化方法工具应用于电子战代码库（经验报告）》

《将形式化方法工具应用于电子战代码库（经验报告）》

专知会员服务

7+阅读 · 4月26日

相关VIP内容

【牛津大学博士论文】序列决策中的迁移学习

【牛津大学博士论文】序列决策中的迁移学习

专知会员服务

24+阅读 · 2024年11月10日

【ICML2022】CtrlFormer: 通过Transformer学习视觉控制的可迁移状态表示

【ICML2022】CtrlFormer: 通过Transformer学习视觉控制的可迁移状态表示

专知会员服务

16+阅读 · 2022年6月21日

《数据驱动的科学与工程——机器学习、动力系统与控制》，572页pdf

《数据驱动的科学与工程——机器学习、动力系统与控制》，572页pdf

专知会员服务

199+阅读 · 2021年2月17日

【Google】大迁移：通用视觉表示学习，General Visual Representation Learning

【Google】大迁移：通用视觉表示学习，General Visual Representation Learning

专知会员服务

37+阅读 · 2020年5月9日

【CVPR2020-浙江大学-阿里巴巴】深层知识迁移的深层归因图，DEPARA: Deep Attribution Graph for Deep Knowledge Transferability

【CVPR2020-浙江大学-阿里巴巴】深层知识迁移的深层归因图，DEPARA: Deep Attribution Graph for Deep Knowledge Transferability

专知会员服务

29+阅读 · 2020年4月17日

【CVPR2020-Oral-浙江大学】深度知识迁移的深度归因图，DEPARA: Deep Attribution Graph

【CVPR2020-Oral-浙江大学】深度知识迁移的深度归因图，DEPARA: Deep Attribution Graph

专知会员服务

27+阅读 · 2020年3月19日

【AAAI2020-Tutorial-Penn】迁移表示学习最新进展，Recent Advances in Transferable Representation Learning

【AAAI2020-Tutorial-Penn】迁移表示学习最新进展，Recent Advances in Transferable Representation Learning

专知会员服务

52+阅读 · 2020年2月8日

【IBM】在视觉和关系推理中迁移学习，Transfer Learning in Visual and Relational Reasoning

【IBM】在视觉和关系推理中迁移学习，Transfer Learning in Visual and Relational Reasoning

专知会员服务

45+阅读 · 2020年1月15日

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

专知会员服务

13+阅读 · 2019年11月17日

【中科院计算所】迁移学习全面综述论文，A Comprehensive Survey on Transfer Learning，27页pdf，171篇参考文献

【中科院计算所】迁移学习全面综述论文，A Comprehensive Survey on Transfer Learning，27页pdf，171篇参考文献

专知会员服务

99+阅读 · 2019年11月11日

热门VIP内容

开通专知VIP会员享更多权益服务

《强化学习数学基础》

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

2026“人工智能+”行业发展蓝皮书（附下载）

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

相关资讯

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

机器之心

13+阅读 · 2019年10月17日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

TensorFlow动态图5行代码实现迁移学习 - 识别转变风格的MNIST

TensorFlow动态图5行代码实现迁移学习 - 识别转变风格的MNIST

专知

18+阅读 · 2019年4月26日

用一行tf.data实现数据Shuffle、Batch划分、异步预加载等

用一行tf.data实现数据Shuffle、Batch划分、异步预加载等

专知

21+阅读 · 2019年3月26日

一文了解迁移学习经典算法

一文了解迁移学习经典算法

AI100

11+阅读 · 2018年8月4日

迁移学习之Domain Adaptation

迁移学习之Domain Adaptation

全球人工智能

18+阅读 · 2018年4月11日

【迁移学习】迁移学习的干货学习资料 | 干货分享 | 技术解读

【迁移学习】迁移学习的干货学习资料 | 干货分享 | 技术解读

产业智能官

15+阅读 · 2018年1月2日

迁移学习在深度学习中的应用

迁移学习在深度学习中的应用

专知

24+阅读 · 2017年12月24日

什么是迁移学习？它都用在深度学习的哪些场景上？这篇文章替你讲清楚了

什么是迁移学习？它都用在深度学习的哪些场景上？这篇文章替你讲清楚了

AI100

16+阅读 · 2017年12月23日

【迁移学习】中科院计算所王晋东：迁移学习的发展和现状

【迁移学习】中科院计算所王晋东：迁移学习的发展和现状

产业智能官

23+阅读 · 2017年11月21日

相关论文

Active Transfer Bagging: A New Approach for Accelerated Active Learning Acquisition of Data by Combined Transfer Learning and Bagging Based Models

Arxiv

0+阅读 · 2月2日

Transfer Learning Through Conditional Quantile Matching

Arxiv

0+阅读 · 2月2日

Achieving $\varepsilon^{-2}$ Dependence for Average-Reward Q-Learning with a New Contraction Principle

Arxiv

0+阅读 · 1月29日

Transfer learning for scalar-on-function regression via control variates

Arxiv

0+阅读 · 1月23日

Composite Flow Matching for Reinforcement Learning with Shifted-Dynamics Data

Arxiv

0+阅读 · 1月21日

From Tags to Trees: Structuring Fine-Grained Knowledge for Controllable Data Selection in LLM Instruction Tuning

Arxiv

0+阅读 · 1月20日

Data-Driven Dynamic Factor Modeling via Manifold Learning

Arxiv

0+阅读 · 1月15日

Task Prototype-Based Knowledge Retrieval for Multi-Task Learning from Partially Annotated Data

Arxiv

0+阅读 · 1月12日

Inverse Q-Learning Done Right: Offline Imitation Learning in $Q^π$-Realizable MDPs

Arxiv

0+阅读 · 1月8日

Sparse Offline Reinforcement Learning with Corruption Robustness

Arxiv

0+阅读 · 2025年12月31日

相关基金

删失数据超高维共线性模型的变量选择

国家自然科学基金

0+阅读 · 2017年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

16+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于强化学习的分布参数系统数据驱动控制

国家自然科学基金

7+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

高维混合数据异常知识发现的粒计算模型关键问题研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员