Learning Sequential Decisions from Multiple Sources via Group-Robust Markov Decision Processes - 专知论文

会员服务 ·

0

鲁棒 · 序列 · 结构 · 马尔可夫决策过程 · 序列决策 ·

Learning Sequential Decisions from Multiple Sources via Group-Robust Markov Decision Processes

翻译：从多源数据中学习序列决策：基于组鲁棒马尔可夫决策过程的方法

Mingyuan Xu,Zongqi Xia,Tianxi Cai,Doudou Zhou,Nian Si

We often collect data from multiple sites (e.g., hospitals) that share common structure but also exhibit heterogeneity. This paper aims to learn robust sequential decision-making policies from such offline, multi-site datasets. To model cross-site uncertainty, we study distributionally robust MDPs with a group-linear structure: all sites share a common feature map, and both the transition kernels and expected reward functions are linear in these shared features. We introduce feature-wise (d-rectangular) uncertainty sets, which preserve tractable robust Bellman recursions while maintaining key cross-site structure. Building on this, we then develop an offline algorithm based on pessimistic value iteration that includes: (i) per-site ridge regression for Bellman targets, (ii) feature-wise worst-case (row-wise minimization) aggregation, and (iii) a data-dependent pessimism penalty computed from the diagonals of the inverse design matrices. We further propose a cluster-level extension that pools similar sites to improve sample efficiency, guided by prior knowledge of site similarity. Under a robust partial coverage assumption, we prove a suboptimality bound for the resulting policy. Overall, our framework addresses multi-site learning with heterogeneous data sources and provides a principled approach to robust planning without relying on strong state-action rectangularity assumptions.

翻译：我们通常从多个站点（例如医院）收集数据，这些站点具有共同的结构但也表现出异质性。本文旨在从这类离线、多站点的数据集中学习鲁棒的序列决策策略。为建模跨站点不确定性，我们研究具有组线性结构的分布鲁棒马尔可夫决策过程：所有站点共享一个共同的特征映射，且转移核与期望奖励函数在这些共享特征上均为线性。我们引入了特征维度（d-矩形）不确定性集合，该集合在保持关键跨站点结构的同时，保留了可处理的鲁棒贝尔曼递归。在此基础上，我们进一步开发了一种基于悲观值迭代的离线算法，其包含：（i）针对贝尔曼目标的逐站点岭回归，（ii）特征维度最坏情况（行最小化）聚合，以及（iii）基于逆设计矩阵对角线计算的数据依赖型悲观惩罚项。我们还提出了一种聚类级扩展方法，在站点相似性先验知识的指导下，通过合并相似站点以提高样本效率。在鲁棒部分覆盖假设下，我们证明了所得策略的次优性界。总体而言，我们的框架解决了具有异质数据源的多站点学习问题，并提供了一种无需依赖强状态-动作矩形性假设的鲁棒规划原则性方法。

0

相关内容

《自适应鲁棒马尔可夫决策过程：协同作战飞机（CCA）对抗性监视任务应用》44页技术报告

《自适应鲁棒马尔可夫决策过程：协同作战飞机（CCA）对抗性监视任务应用》44页技术报告

专知会员服务

27+阅读 · 2025年12月9日

《分布式多智能体强化学习策略的可解释性研究》

《分布式多智能体强化学习策略的可解释性研究》

专知会员服务

29+阅读 · 2025年11月17日

【MIT博士论文】高效的鲁棒性和可解释性在学习和数据驱动决策中的应用

【MIT博士论文】高效的鲁棒性和可解释性在学习和数据驱动决策中的应用

专知会员服务

48+阅读 · 2024年7月21日

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

专知会员服务

72+阅读 · 2024年1月13日

【斯坦福大学博士论文】基于数据的序列决策制定，通过理解并采纳理性行为，193页pdf

【斯坦福大学博士论文】基于数据的序列决策制定，通过理解并采纳理性行为，193页pdf

专知会员服务

38+阅读 · 2023年10月8日

【伯克利博士论文】不确定性序列决策:最优性保证，组合学习，以及在机器人技术和生态学中的应用，256页pdf

【伯克利博士论文】不确定性序列决策:最优性保证，组合学习，以及在机器人技术和生态学中的应用，256页pdf

专知会员服务

39+阅读 · 2023年5月17日

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策

专知会员服务

62+阅读 · 2023年4月12日

《多智能体马尔可夫决策过程：问题和算法的分类》47页长综述

《多智能体马尔可夫决策过程：问题和算法的分类》47页长综述

专知会员服务

43+阅读 · 2023年3月13日

不确定性决策学习，普林斯顿Bartolomeo Stellato讲授，附Slides与视频

不确定性决策学习，普林斯顿Bartolomeo Stellato讲授，附Slides与视频

专知会员服务

49+阅读 · 2023年3月6日

【ICML2022】鲁棒强化学习的策略梯度法

【ICML2022】鲁棒强化学习的策略梯度法

专知会员服务

38+阅读 · 2022年5月21日

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

38+阅读 · 2023年4月13日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

52+阅读 · 2022年11月16日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

33+阅读 · 2022年10月17日

基于深度学习的序列推荐系统：概念，算法与评估

基于深度学习的序列推荐系统：概念，算法与评估

专知

24+阅读 · 2019年6月6日

独家 | 使用Python实现机器学习特征选择的4种方法（附代码）

独家 | 使用Python实现机器学习特征选择的4种方法（附代码）

数据派THU

12+阅读 · 2019年4月12日

使用 Canal 实现数据异构

使用 Canal 实现数据异构

性能与架构

20+阅读 · 2019年3月4日

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

人工智能前沿讲习班

27+阅读 · 2018年12月13日

R语言之数据分析高级方法「时间序列」

R语言之数据分析高级方法「时间序列」

R语言中文社区

17+阅读 · 2018年4月24日

网络节点表示学习论文笔记03—基于异构网络节点表示的推荐系统

网络节点表示学习论文笔记03—基于异构网络节点表示的推荐系统

专知

27+阅读 · 2018年2月24日

【干货】终极入门马尔可夫网络 (Markov Networks)——概率图模型

【干货】终极入门马尔可夫网络 (Markov Networks)——概率图模型

机器学习研究会

31+阅读 · 2018年1月7日

群体偏好的敏感性度量方法研究和群决策方法的可实施性评价

国家自然科学基金

0+阅读 · 2017年12月31日

带有随机干扰的非齐次马尔科夫跳变系统的鲁棒滤波研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于导向随机狼群算法的多元时间序列变量选择研究

国家自然科学基金

3+阅读 · 2015年12月31日

复杂决策环境下面向共识的群体评价模型与方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于形状信息和结果反馈的多图谱图像分割方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于马尔科夫链的线性系统求解问题的高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于势场法的多智能体系统鲁棒自适应刚性编队控制

国家自然科学基金

3+阅读 · 2015年12月31日

面向大数据的群体偏好决策分析研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于中智集的模糊多属性决策理论、方法与应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

Non-Rectangular Average-Reward Robust MDPs: Optimal Policies and Their Transient Values

Arxiv

0+阅读 · 3月10日

Data-driven robust Markov decision processes on Borel spaces: performance guarantees via an axiomatic approach

Arxiv

0+阅读 · 3月9日

Robust Transfer Learning with Side Information

Arxiv

0+阅读 · 3月9日

Lifted Forward Planning in Relational Factored Markov Decision Processes with Concurrent Actions

Arxiv

0+阅读 · 2月23日

Policy Gradient Algorithms in Average-Reward Multichain MDPs

Arxiv

0+阅读 · 2月20日

Multi-Environment MDPs with Prior and Universal Semantics

Arxiv

0+阅读 · 2月11日

Efficient Algorithms for Robust Markov Decision Processes with $s$-Rectangular Ambiguity Sets

Arxiv

0+阅读 · 2月5日

An End-to-End Approach for Microgrid Probabilistic Forecasting and Robust Operation via Decision-focused Learning

Arxiv

0+阅读 · 2月3日

Data- and Variance-dependent Regret Bounds for Online Tabular MDPs

Arxiv

0+阅读 · 2月2日

Strongly Polynomial Time Complexity of Policy Iteration for $L_\infty$ Robust MDPs

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

马尔可夫决策过程

最新内容

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

0+阅读 · 29分钟前

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

1+阅读 · 46分钟前

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

1+阅读 · 49分钟前

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

1+阅读 · 51分钟前

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

1+阅读 · 今天13:13

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

0+阅读 · 今天13:10

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

5+阅读 · 6月16日

多模态代码智能综述：从视觉输入到可执行代码系统

多模态代码智能综述：从视觉输入到可执行代码系统

专知会员服务

7+阅读 · 6月16日

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

专知会员服务

5+阅读 · 6月16日

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

专知会员服务

5+阅读 · 6月16日

《通用大语言模型：无人机指挥与控制接口》最新40页

《通用大语言模型：无人机指挥与控制接口》最新40页

专知会员服务

15+阅读 · 6月16日

《通过小型无人机系统将情报能力“作战化”》

《通过小型无人机系统将情报能力“作战化”》

专知会员服务

6+阅读 · 6月16日

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

专知会员服务

10+阅读 · 6月16日

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

专知会员服务

21+阅读 · 6月15日

消耗优势：美军的“精确规模化”概念

消耗优势：美军的“精确规模化”概念

专知会员服务

8+阅读 · 6月15日

相关VIP内容

《自适应鲁棒马尔可夫决策过程：协同作战飞机（CCA）对抗性监视任务应用》44页技术报告

《自适应鲁棒马尔可夫决策过程：协同作战飞机（CCA）对抗性监视任务应用》44页技术报告

专知会员服务

27+阅读 · 2025年12月9日

《分布式多智能体强化学习策略的可解释性研究》

《分布式多智能体强化学习策略的可解释性研究》

专知会员服务

29+阅读 · 2025年11月17日

【MIT博士论文】高效的鲁棒性和可解释性在学习和数据驱动决策中的应用

【MIT博士论文】高效的鲁棒性和可解释性在学习和数据驱动决策中的应用

专知会员服务

48+阅读 · 2024年7月21日

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

专知会员服务

72+阅读 · 2024年1月13日

【斯坦福大学博士论文】基于数据的序列决策制定，通过理解并采纳理性行为，193页pdf

【斯坦福大学博士论文】基于数据的序列决策制定，通过理解并采纳理性行为，193页pdf

专知会员服务

38+阅读 · 2023年10月8日

【伯克利博士论文】不确定性序列决策:最优性保证，组合学习，以及在机器人技术和生态学中的应用，256页pdf

【伯克利博士论文】不确定性序列决策:最优性保证，组合学习，以及在机器人技术和生态学中的应用，256页pdf

专知会员服务

39+阅读 · 2023年5月17日

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策

专知会员服务

62+阅读 · 2023年4月12日

《多智能体马尔可夫决策过程：问题和算法的分类》47页长综述

《多智能体马尔可夫决策过程：问题和算法的分类》47页长综述

专知会员服务

43+阅读 · 2023年3月13日

不确定性决策学习，普林斯顿Bartolomeo Stellato讲授，附Slides与视频

不确定性决策学习，普林斯顿Bartolomeo Stellato讲授，附Slides与视频

专知会员服务

49+阅读 · 2023年3月6日

【ICML2022】鲁棒强化学习的策略梯度法

【ICML2022】鲁棒强化学习的策略梯度法

专知会员服务

38+阅读 · 2022年5月21日

热门VIP内容

开通专知VIP会员享更多权益服务

从燃煤战舰到算法战争：水面指挥的永恒要求

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

定向能反无人机系统最新发展动态

《短程弹道再入飞行器拦截时间中的一项异常现象》

相关资讯

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

38+阅读 · 2023年4月13日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

52+阅读 · 2022年11月16日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

33+阅读 · 2022年10月17日

基于深度学习的序列推荐系统：概念，算法与评估

基于深度学习的序列推荐系统：概念，算法与评估

专知

24+阅读 · 2019年6月6日

独家 | 使用Python实现机器学习特征选择的4种方法（附代码）

独家 | 使用Python实现机器学习特征选择的4种方法（附代码）

数据派THU

12+阅读 · 2019年4月12日

使用 Canal 实现数据异构

使用 Canal 实现数据异构

性能与架构

20+阅读 · 2019年3月4日

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

人工智能前沿讲习班

27+阅读 · 2018年12月13日

R语言之数据分析高级方法「时间序列」

R语言之数据分析高级方法「时间序列」

R语言中文社区

17+阅读 · 2018年4月24日

网络节点表示学习论文笔记03—基于异构网络节点表示的推荐系统

网络节点表示学习论文笔记03—基于异构网络节点表示的推荐系统

专知

27+阅读 · 2018年2月24日

【干货】终极入门马尔可夫网络 (Markov Networks)——概率图模型

【干货】终极入门马尔可夫网络 (Markov Networks)——概率图模型

机器学习研究会

31+阅读 · 2018年1月7日

相关论文

Non-Rectangular Average-Reward Robust MDPs: Optimal Policies and Their Transient Values

Arxiv

0+阅读 · 3月10日

Data-driven robust Markov decision processes on Borel spaces: performance guarantees via an axiomatic approach

Arxiv

0+阅读 · 3月9日

Robust Transfer Learning with Side Information

Arxiv

0+阅读 · 3月9日

Lifted Forward Planning in Relational Factored Markov Decision Processes with Concurrent Actions

Arxiv

0+阅读 · 2月23日

Policy Gradient Algorithms in Average-Reward Multichain MDPs

Arxiv

0+阅读 · 2月20日

Multi-Environment MDPs with Prior and Universal Semantics

Arxiv

0+阅读 · 2月11日

Efficient Algorithms for Robust Markov Decision Processes with $s$-Rectangular Ambiguity Sets

Arxiv

0+阅读 · 2月5日

An End-to-End Approach for Microgrid Probabilistic Forecasting and Robust Operation via Decision-focused Learning

Arxiv

0+阅读 · 2月3日

Data- and Variance-dependent Regret Bounds for Online Tabular MDPs

Arxiv

0+阅读 · 2月2日

Strongly Polynomial Time Complexity of Policy Iteration for $L_\infty$ Robust MDPs

Arxiv

0+阅读 · 1月30日

相关基金

群体偏好的敏感性度量方法研究和群决策方法的可实施性评价

国家自然科学基金

0+阅读 · 2017年12月31日

带有随机干扰的非齐次马尔科夫跳变系统的鲁棒滤波研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于导向随机狼群算法的多元时间序列变量选择研究

国家自然科学基金

3+阅读 · 2015年12月31日

复杂决策环境下面向共识的群体评价模型与方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于形状信息和结果反馈的多图谱图像分割方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于马尔科夫链的线性系统求解问题的高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于势场法的多智能体系统鲁棒自适应刚性编队控制

国家自然科学基金

3+阅读 · 2015年12月31日

面向大数据的群体偏好决策分析研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于中智集的模糊多属性决策理论、方法与应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员