Learning domain adaptive policies that can generalize to unseen transition dynamics, remains a fundamental challenge in learning-based control. Substantial progress has been made through domain representation learning to capture domain-specific information, thus enabling domain-aware decision making. We analyze the process of learning domain representations through dynamical prediction and find that selecting contexts adjacent to the current step causes the learned representations to entangle static domain information with varying dynamical properties. Such mixture can confuse the conditioned policy, thereby constraining zero-shot adaptation. To tackle the challenge, we propose DADP (Domain Adaptive Diffusion Policy), which achieves robust adaptation through unsupervised disentanglement and domain-aware diffusion injection. First, we introduce Lagged Context Dynamical Prediction, a strategy that conditions future state estimation on a historical offset context; by increasing this temporal gap, we unsupervisedly disentangle static domain representations by filtering out transient properties. Second, we integrate the learned domain representations directly into the generative process by biasing the prior distribution and reformulating the diffusion target. Extensive experiments on challenging benchmarks across locomotion and manipulation demonstrate the superior performance, and the generalizability of DADP over prior methods. More visualization results are available on the https://outsider86.github.io/DomainAdaptiveDiffusionPolicy/.


翻译:学习能够泛化到未见过的转移动力学的领域自适应策略,仍然是基于学习的控制中的一个根本性挑战。通过领域表示学习来捕获领域特定信息,从而实现领域感知决策,已经取得了实质性进展。我们分析了通过动力学预测学习领域表示的过程,发现选择与当前步骤相邻的上下文会导致学习到的表示将静态领域信息与变化的动力学特性纠缠在一起。这种混合会混淆条件策略,从而限制零样本适应能力。为了应对这一挑战,我们提出了DADP(领域自适应扩散策略),它通过无监督解耦和领域感知扩散注入实现鲁棒适应。首先,我们引入了滞后上下文动力学预测策略,该策略基于历史偏移上下文对未来状态估计进行条件化;通过增加这种时间间隔,我们通过过滤掉瞬态特性,以无监督方式解耦出静态领域表示。其次,我们通过偏置先验分布和重新表述扩散目标,将学习到的领域表示直接集成到生成过程中。在涵盖运动与操作的多个具有挑战性的基准测试上进行的大量实验表明,DADP相比先前方法具有优越的性能和泛化能力。更多可视化结果可在 https://outsider86.github.io/DomainAdaptiveDiffusionPolicy/ 上获取。

0
下载
关闭预览

相关内容

【AAAI2022】领域自适应的主动学习:一种基于能量的方法
专知会员服务
45+阅读 · 2021年12月6日
专知会员服务
23+阅读 · 2021年6月28日
专知会员服务
30+阅读 · 2021年5月6日
领域自适应研究综述
专知会员服务
55+阅读 · 2021年5月5日
【CVPR2021】DAML:针对开放领域泛化的领域增广元学习方法
【ICML2021】因果匹配领域泛化
专知
12+阅读 · 2021年8月12日
【资源】领域自适应相关论文、代码分享
专知
32+阅读 · 2019年10月12日
迁移自适应学习最新综述,附21页论文下载
领域自适应学习论文大列表
专知
71+阅读 · 2019年3月2日
迁移学习之Domain Adaptation
全球人工智能
18+阅读 · 2018年4月11日
极市分享|王晋东 迁移学习中的领域自适应方法
极市平台
10+阅读 · 2017年12月11日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
【ICML2021】因果匹配领域泛化
专知
12+阅读 · 2021年8月12日
【资源】领域自适应相关论文、代码分享
专知
32+阅读 · 2019年10月12日
迁移自适应学习最新综述,附21页论文下载
领域自适应学习论文大列表
专知
71+阅读 · 2019年3月2日
迁移学习之Domain Adaptation
全球人工智能
18+阅读 · 2018年4月11日
极市分享|王晋东 迁移学习中的领域自适应方法
极市平台
10+阅读 · 2017年12月11日
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员