Reinforcement learning (RL) systems often degrade when operating conditions differ from those previously encountered, reflecting distributional shifts in the underlying data-generating process. Such shifts may occur between training and evaluation, as in In-Distribution (ID) and Out-of-Distribution (OOD) generalization, or within non-stationary settings where environment dynamics evolve over time. However, the formal relationship between these views remains unclear, and existing work mainly focuses on mitigation rather than the causal origin of shift within the agent-environment interaction. This work develops a unified causal-origin taxonomy that characterizes sources of distributional shift in RL and relates ID/OOD generalization to non-stationary settings. We transfer the classical dataset-shift principle from supervised learning to RL by reformulating distributional shift in terms of the generative interaction process. Using a Partially Observable Markov Decision Process (POMDP), we decompose the interaction into structural components, including the state distribution, observation process, policy, reward, and transition dynamics, together with the shifted-time boundary. The proposed taxonomy distinguishes internal, agent-driven, and external, environment-driven, distributional shifts. The shifted-time boundary perspective further characterizes explicit, implicit, and hybrid shifts. This formulation unifies ID/OOD generalization and non-stationarity as structured changes in the underlying process. We also introduce an evaluation framework for measuring shift impact and adaptation through performance degradation and recovery metrics. By grounding distributional shift in the causal-origin structure of RL, this work supports systematic analysis of robustness under distributional shift.


翻译:强化学习(RL)系统在运行条件与先前经验不同时常出现性能退化,这反映了底层数据生成过程中的分布偏移。此类偏移可能发生在训练与评估之间(如分布内(ID)与分布外(OOD)泛化),也可能出现在环境动态随时间演化的非平稳场景中。然而,这两种视角间的形式化关系尚不明确,现有工作主要聚焦于缓解策略而非智能体-环境交互中偏移的因果本源。本文发展了一种统一的因果本源分类法,系统表征RL中分布偏移的来源,并建立ID/OOD泛化与非平稳场景的关联。通过将分布偏移重新表述为生成性交互过程,我们将经典监督学习中的数据集偏移原则迁移至RL领域。基于部分可观测马尔可夫决策过程(POMDP),我们将交互过程分解为状态分布、观测过程、策略、奖励及转移动态等结构组件,并引入偏移时间边界概念。所提分类法区分了内部(智能体驱动)与外部(环境驱动)两类分布偏移。基于偏移时间边界视角,进一步刻画了显式、隐式与混合三类偏移。该形式化框架将ID/OOD泛化与非平稳性统一为底层过程的结构化变化。我们还提出了一个评估框架,通过性能退化与恢复指标量化偏移影响及自适应能力。通过将分布偏移锚定于RL的因果本源结构,本文支持对分布偏移下鲁棒性的系统化分析。

0
下载
关闭预览

相关内容

因果强化学习的统一框架:综述、分类体系、算法与应用
专知会员服务
35+阅读 · 2025年12月24日
基于模型的强化学习综述
专知会员服务
149+阅读 · 2022年7月13日
最新《深度强化学习中的迁移学习》综述论文
专知会员服务
157+阅读 · 2020年9月20日
【Texas 大学】强化学习领域的课程学习:一个框架和综述
专知会员服务
73+阅读 · 2020年3月22日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【MIT博士论文】数据高效强化学习,176页pdf
Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证
深度强化学习实验室
20+阅读 · 2020年8月11日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
关于强化学习(附代码,练习和解答)
深度学习
38+阅读 · 2018年1月30日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月18日
Arxiv
22+阅读 · 2023年11月2日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员