We study offline imitation learning (IL) when part of the decision-relevant state is observed only through noisy measurements and the distribution may change between training and deployment. Such settings induce spurious state-action correlations, so standard behavioral cloning (BC) -- whether conditioning on raw measurements or ignoring them -- can converge to systematically biased policies under distribution shift. We propose a general framework for IL under measurement error, inspired by explicitly modeling the causal relationships among the variables, yielding a target that retains a causal interpretation and is robust to distribution shift. Building on ideas from proximal causal inference, we introduce \texttt{CausIL}, which treats noisy state observations as proxy variables, and we provide identification conditions under which the target policy is recoverable from demonstrations without rewards or interactive expert queries. We develop estimators for both discrete and continuous state spaces; for continuous settings, we use an adversarial procedure over RKHS function classes to learn the required parameters. We evaluate \texttt{CausIL} on semi-simulated longitudinal data from the PhysioNet/Computing in Cardiology Challenge 2019 cohort and demonstrate improved robustness to distribution shift compared to BC baselines.


翻译:本研究探讨了在部分决策相关状态仅通过噪声测量观测、且训练与部署间可能存在分布偏移情况下的离线模仿学习问题。此类设置会引发虚假的状态-动作相关性,因此标准行为克隆方法——无论是基于原始测量进行条件建模还是忽略测量值——在分布偏移下都可能收敛至存在系统性偏差的策略。受变量间因果关系的显式建模启发,我们提出了一个适用于测量误差下模仿学习的通用框架,该框架产生的目标函数保持因果解释性且对分布偏移具有鲁棒性。基于近端因果推断的思想,我们提出了\texttt{CausIL}方法,将噪声状态观测视为代理变量,并给出了在无需奖励信号或交互式专家查询的情况下,仅通过示范数据即可恢复目标策略的识别条件。我们针对离散与连续状态空间分别开发了估计器;对于连续场景,我们采用基于再生核希尔伯特空间函数类的对抗性训练过程来学习所需参数。我们在PhysioNet/Computing in Cardiology Challenge 2019队列的半仿真纵向数据上评估了\texttt{CausIL}方法,结果表明相较于行为克隆基线,该方法对分布偏移具有更强的鲁棒性。

0
下载
关闭预览

相关内容

【CMU博士论文】分布偏移下的不确定性量化,226页pdf
专知会员服务
31+阅读 · 2023年9月30日
因果关联学习,Causal Relational Learning
专知会员服务
185+阅读 · 2020年4月21日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
论文浅尝 | 基于局内去噪和迁移学习的关系抽取
开放知识图谱
16+阅读 · 2018年12月2日
FCS 论坛 | 孟德宇:误差建模原理
FCS
15+阅读 · 2017年8月17日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员