Robust Transfer Learning with Side Information - 专知论文

会员服务 ·

0

鲁棒 · 辅助信息 · 不确定 · 不确定性 · 样本 ·

Robust Transfer Learning with Side Information

翻译：基于辅助信息的鲁棒迁移学习

Akram S. Awad,Shihab Ahmed,Yue Wang,George K. Atia

Robust Markov Decision Processes (MDPs) address environmental shift through distributionally robust optimization (DRO) by finding an optimal worst-case policy within an uncertainty set of transition kernels. However, standard DRO approaches require enlarging the uncertainty set under large shifts, which leads to overly conservative and pessimistic policies. In this paper, we propose a framework for transfer under environment shift that derives a robust target-domain policy via estimate-centered uncertainty sets, constructed through constrained estimation that integrates limited target samples with side information about the source-target dynamics. The side information includes bounds on feature moments, distributional distances, and density ratios, yielding improved kernel estimates and tighter uncertainty sets. The side information includes bounds on feature moments, distributional distances, and density ratios, yielding improved kernel estimates and tighter uncertainty sets. Error bounds and convergence results are established for both robust and non-robust value functions. Moreover, we provide a finite-sample guarantee on the learned robust policy and analyze the robust sub-optimality gap. Under mild low-dimensional structure on the transition model, the side information reduces this gap and improves sample efficiency. We assess the performance of our approach across OpenAI Gym environments and classic control problems, consistently demonstrating superior target-domain performance over state-of-the-art robust and non-robust baselines.

翻译：鲁棒马尔可夫决策过程通过分布鲁棒优化，在转移核的不确定性集合中寻找最优最坏情况策略，以应对环境偏移。然而，标准分布鲁棒优化方法在面临较大偏移时需要扩大不确定性集合，这会导致策略过于保守和悲观。本文提出一个环境偏移下的迁移学习框架，该框架通过构建以估计为中心的不确定性集合来推导鲁棒的目标域策略。这些集合通过约束估计构建，该估计将有限的目标域样本与关于源-目标动态的辅助信息相结合。辅助信息包括特征矩的界、分布距离以及密度比，从而得到改进的核估计和更紧的不确定性集合。我们为鲁棒和非鲁棒值函数建立了误差界和收敛性结果。此外，我们为学习到的鲁棒策略提供了有限样本保证，并分析了鲁棒次优性间隙。在转移模型具有温和的低维结构假设下，辅助信息能够减小该间隙并提升样本效率。我们在OpenAI Gym环境和经典控制问题中评估了所提方法的性能，其目标域表现始终优于当前最先进的鲁棒与非鲁棒基线方法。

0

相关内容

《鲁棒优化中保形预测生成不确定性集的性能评价》最新95页

《鲁棒优化中保形预测生成不确定性集的性能评价》最新95页

专知会员服务

9+阅读 · 3月20日

【NTU博士论文】鲁棒和自适应的决策制定：从强化学习的视角，162页pdf

【NTU博士论文】鲁棒和自适应的决策制定：从强化学习的视角，162页pdf

专知会员服务

38+阅读 · 2024年1月17日

【斯坦福博士论文】大模型驱动的鲁棒机器学习，243页pdf

【斯坦福博士论文】大模型驱动的鲁棒机器学习，243页pdf

专知会员服务

59+阅读 · 2023年7月10日

不确定性决策学习，普林斯顿Bartolomeo Stellato讲授，附Slides与视频

不确定性决策学习，普林斯顿Bartolomeo Stellato讲授，附Slides与视频

专知会员服务

49+阅读 · 2023年3月6日

【斯坦福大学博士论文】鲁棒学习:信息论和算法，88页pdf

【斯坦福大学博士论文】鲁棒学习:信息论和算法，88页pdf

专知会员服务

44+阅读 · 2022年11月13日

《电力系统机器学习的鲁棒性》美海军研究生院2022最新64页论文

《电力系统机器学习的鲁棒性》美海军研究生院2022最新64页论文

专知会员服务

25+阅读 · 2022年11月2日

【ICML2022】鲁棒强化学习的策略梯度法

【ICML2022】鲁棒强化学习的策略梯度法

专知会员服务

38+阅读 · 2022年5月21日

【ICML2021】协同对抗鲁棒的迁移学习

专知会员服务

25+阅读 · 2021年6月17日

鲁棒表示学习简述

专知会员服务

26+阅读 · 2021年4月13日

【干货书】鲁棒优化Robust Optimization，570页pdf

专知会员服务

144+阅读 · 2021年3月17日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

中科院发布最新迁移学习综述论文，带你全面了解40种迁移学习方法

中科院发布最新迁移学习综述论文，带你全面了解40种迁移学习方法

专知

48+阅读 · 2019年11月12日

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

机器之心

13+阅读 · 2019年10月17日

里昂大学博士学位论文-图像分类中的迁移学习

里昂大学博士学位论文-图像分类中的迁移学习

专知

12+阅读 · 2019年4月10日

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

人工智能前沿讲习班

27+阅读 · 2018年12月13日

基于Keras进行迁移学习

基于Keras进行迁移学习

论智

12+阅读 · 2018年5月6日

【迁移学习】简述迁移学习在深度学习中的应用

【迁移学习】简述迁移学习在深度学习中的应用

产业智能官

15+阅读 · 2018年1月9日

【迁移学习】迁移学习的干货学习资料 | 干货分享 | 技术解读

【迁移学习】迁移学习的干货学习资料 | 干货分享 | 技术解读

产业智能官

15+阅读 · 2018年1月2日

迁移学习在深度学习中的应用

迁移学习在深度学习中的应用

专知

24+阅读 · 2017年12月24日

什么是迁移学习？它都用在深度学习的哪些场景上？这篇文章替你讲清楚了

什么是迁移学习？它都用在深度学习的哪些场景上？这篇文章替你讲清楚了

AI100

16+阅读 · 2017年12月23日

带有随机干扰的非齐次马尔科夫跳变系统的鲁棒滤波研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于迁移学习的图像隐写分析新方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于不确定性计算的鲁棒风险评估关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

非线性切换系统在线鲁棒近似优化控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

不确定环境下具有稀疏特征的鲁棒投资组合选择问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

低保守性自适应鲁棒优化及其在含大规模风电电网调度中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于势场法的多智能体系统鲁棒自适应刚性编队控制

国家自然科学基金

3+阅读 · 2015年12月31日

不确定与动态信息环境下基于预规划-重规划集成建模的应急物流选址-调度鲁棒优化研究

国家自然科学基金

3+阅读 · 2014年12月31日

含分布式发电的家庭智能用电鲁棒优化研究

国家自然科学基金

1+阅读 · 2014年12月31日

Convergence of Distributionally Robust Q-Learning with Linear Function Approximation

Arxiv

0+阅读 · 3月16日

Optimization-Based Robust Permissive Synthesis for Interval MDPs

Arxiv

0+阅读 · 3月16日

Structured Credal Learning

Arxiv

0+阅读 · 3月14日

Adversarial Latent-State Training for Robust Policies in Partially Observable Domains

Arxiv

0+阅读 · 3月10日

Sparse Offline Reinforcement Learning with Corruption Robustness

Arxiv

0+阅读 · 3月7日

Robust Machine Learning for Regulatory Sequence Modeling under Biological and Technical Distribution Shifts

Robust Machine Learning for Regulatory Sequence Modeling under Biological and Technical Distribution Shifts

Arxiv

0+阅读 · 2月19日

Robust Generalization with Adaptive Optimal Transport Priors for Decision-Focused Learning

Arxiv

0+阅读 · 2月16日

Robust Label Shift Quantification

Arxiv

0+阅读 · 2月10日

Robust Online Learning

Arxiv

0+阅读 · 2月6日

Efficient Algorithms for Robust Markov Decision Processes with $s$-Rectangular Ambiguity Sets

Arxiv

0+阅读 · 2月5日

VIP会员

文章信息

相关主题

最新内容

Palantir AIP平台：连接智能体与决策

Palantir AIP平台：连接智能体与决策

专知会员服务

4+阅读 · 今天1:22

《应急响应数字孪生：整合增强现实与实时位置数据的模拟辅助决策》技术报告

《应急响应数字孪生：整合增强现实与实时位置数据的模拟辅助决策》技术报告

专知会员服务

3+阅读 · 今天1:17

《通用基于模型的系统工程交会与接近操作任务规划器》130页

《通用基于模型的系统工程交会与接近操作任务规划器》130页

专知会员服务

4+阅读 · 今天1:12

对ARL-TR-9623报告《人机自主协同团队信任工具包（HAT³）软件开发文档与用户指南》的增补材料

对ARL-TR-9623报告《人机自主协同团队信任工具包（HAT³）软件开发文档与用户指南》的增补材料

专知会员服务

3+阅读 · 今天1:11

《美海军软件测试战略》90页slides

《美海军软件测试战略》90页slides

专知会员服务

6+阅读 · 今天1:00

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

专知会员服务

5+阅读 · 4月30日

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

专知会员服务

5+阅读 · 4月30日

面向具身智能与机器人仿真的三维生成：综述

面向具身智能与机器人仿真的三维生成：综述

专知会员服务

6+阅读 · 4月30日

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

专知会员服务

15+阅读 · 4月30日

《人工智能在全球军事与武器工业中的应用、方法论与影响》

《人工智能在全球军事与武器工业中的应用、方法论与影响》

专知会员服务

7+阅读 · 4月30日

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

专知会员服务

12+阅读 · 4月30日

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

专知会员服务

7+阅读 · 4月30日

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

8+阅读 · 4月29日

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

专知会员服务

7+阅读 · 4月29日

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

专知会员服务

6+阅读 · 4月29日

相关VIP内容

《鲁棒优化中保形预测生成不确定性集的性能评价》最新95页

《鲁棒优化中保形预测生成不确定性集的性能评价》最新95页

专知会员服务

9+阅读 · 3月20日

【NTU博士论文】鲁棒和自适应的决策制定：从强化学习的视角，162页pdf

【NTU博士论文】鲁棒和自适应的决策制定：从强化学习的视角，162页pdf

专知会员服务

38+阅读 · 2024年1月17日

【斯坦福博士论文】大模型驱动的鲁棒机器学习，243页pdf

【斯坦福博士论文】大模型驱动的鲁棒机器学习，243页pdf

专知会员服务

59+阅读 · 2023年7月10日

不确定性决策学习，普林斯顿Bartolomeo Stellato讲授，附Slides与视频

不确定性决策学习，普林斯顿Bartolomeo Stellato讲授，附Slides与视频

专知会员服务

49+阅读 · 2023年3月6日

【斯坦福大学博士论文】鲁棒学习:信息论和算法，88页pdf

【斯坦福大学博士论文】鲁棒学习:信息论和算法，88页pdf

专知会员服务

44+阅读 · 2022年11月13日

《电力系统机器学习的鲁棒性》美海军研究生院2022最新64页论文

《电力系统机器学习的鲁棒性》美海军研究生院2022最新64页论文

专知会员服务

25+阅读 · 2022年11月2日

【ICML2022】鲁棒强化学习的策略梯度法

【ICML2022】鲁棒强化学习的策略梯度法

专知会员服务

38+阅读 · 2022年5月21日

【ICML2021】协同对抗鲁棒的迁移学习

专知会员服务

25+阅读 · 2021年6月17日

鲁棒表示学习简述

专知会员服务

26+阅读 · 2021年4月13日

【干货书】鲁棒优化Robust Optimization，570页pdf

专知会员服务

144+阅读 · 2021年3月17日

热门VIP内容

开通专知VIP会员享更多权益服务

《应急响应数字孪生：整合增强现实与实时位置数据的模拟辅助决策》技术报告

对ARL-TR-9623报告《人机自主协同团队信任工具包（HAT³）软件开发文档与用户指南》的增补材料

Palantir AIP平台：连接智能体与决策

《通用基于模型的系统工程交会与接近操作任务规划器》130页

相关资讯

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

中科院发布最新迁移学习综述论文，带你全面了解40种迁移学习方法

中科院发布最新迁移学习综述论文，带你全面了解40种迁移学习方法

专知

48+阅读 · 2019年11月12日

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

机器之心

13+阅读 · 2019年10月17日

里昂大学博士学位论文-图像分类中的迁移学习

里昂大学博士学位论文-图像分类中的迁移学习

专知

12+阅读 · 2019年4月10日

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

人工智能前沿讲习班

27+阅读 · 2018年12月13日

基于Keras进行迁移学习

基于Keras进行迁移学习

论智

12+阅读 · 2018年5月6日

【迁移学习】简述迁移学习在深度学习中的应用

【迁移学习】简述迁移学习在深度学习中的应用

产业智能官

15+阅读 · 2018年1月9日

【迁移学习】迁移学习的干货学习资料 | 干货分享 | 技术解读

【迁移学习】迁移学习的干货学习资料 | 干货分享 | 技术解读

产业智能官

15+阅读 · 2018年1月2日

迁移学习在深度学习中的应用

迁移学习在深度学习中的应用

专知

24+阅读 · 2017年12月24日

什么是迁移学习？它都用在深度学习的哪些场景上？这篇文章替你讲清楚了

什么是迁移学习？它都用在深度学习的哪些场景上？这篇文章替你讲清楚了

AI100

16+阅读 · 2017年12月23日

相关论文

Convergence of Distributionally Robust Q-Learning with Linear Function Approximation

Arxiv

0+阅读 · 3月16日

Optimization-Based Robust Permissive Synthesis for Interval MDPs

Arxiv

0+阅读 · 3月16日

Structured Credal Learning

Arxiv

0+阅读 · 3月14日

Adversarial Latent-State Training for Robust Policies in Partially Observable Domains

Arxiv

0+阅读 · 3月10日

Sparse Offline Reinforcement Learning with Corruption Robustness

Arxiv

0+阅读 · 3月7日

Robust Machine Learning for Regulatory Sequence Modeling under Biological and Technical Distribution Shifts

Robust Machine Learning for Regulatory Sequence Modeling under Biological and Technical Distribution Shifts

Arxiv

0+阅读 · 2月19日

Robust Generalization with Adaptive Optimal Transport Priors for Decision-Focused Learning

Arxiv

0+阅读 · 2月16日

Robust Label Shift Quantification

Arxiv

0+阅读 · 2月10日

Robust Online Learning

Arxiv

0+阅读 · 2月6日

Efficient Algorithms for Robust Markov Decision Processes with $s$-Rectangular Ambiguity Sets

Arxiv

0+阅读 · 2月5日

相关基金

带有随机干扰的非齐次马尔科夫跳变系统的鲁棒滤波研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于迁移学习的图像隐写分析新方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于不确定性计算的鲁棒风险评估关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

非线性切换系统在线鲁棒近似优化控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

不确定环境下具有稀疏特征的鲁棒投资组合选择问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

低保守性自适应鲁棒优化及其在含大规模风电电网调度中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于势场法的多智能体系统鲁棒自适应刚性编队控制

国家自然科学基金

3+阅读 · 2015年12月31日

不确定与动态信息环境下基于预规划-重规划集成建模的应急物流选址-调度鲁棒优化研究

国家自然科学基金

3+阅读 · 2014年12月31日

含分布式发电的家庭智能用电鲁棒优化研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员