Incorporating demonstration data into reinforcement learning (RL) can greatly accelerate learning, but existing approaches often assume demonstrations are optimal and fully aligned with the target task. In practice, demonstrations are frequently sparse, suboptimal, or misaligned, which can degrade performance when these demonstrations are integrated into RL. We propose Adaptive Policy Composition (APC), a hierarchical model that adaptively composes multiple data-driven Normalizing Flow (NF) priors. Instead of enforcing strict adherence to the priors, APC estimates each prior's applicability to the target task while leveraging them for exploration. Moreover, APC either refines useful priors, or sidesteps misaligned ones when necessary to optimize downstream reward. Across diverse benchmarks, APC accelerates learning when demonstrations are aligned, remains robust under severe misalignment, and leverages suboptimal demonstrations to bootstrap exploration while avoiding performance degradation caused by overly strict adherence to suboptimal demonstrations.


翻译:将演示数据融入强化学习(RL)可显著加速学习过程,但现有方法通常假设演示数据是最优且与目标任务完全对齐的。实践中,演示数据往往是稀疏的、次优的或未对齐的,当这些演示数据被整合到强化学习中时,可能导致性能下降。我们提出自适应策略组合(APC),一种自适应组合多个数据驱动的归一化流(NF)先验的分层模型。APC不强制严格遵循先验,而是在利用先验进行探索的同时,评估每个先验对目标任务的适用性。此外,APC会根据需要优化有用先验,或在必要时规避未对齐的先验,以最大化下游奖励。在多种基准测试中,当演示数据对齐时,APC能加速学习;在严重未对齐情况下仍保持鲁棒性;并能利用次优演示数据引导探索,同时避免因过度严格遵循次优演示数据而导致的性能下降。

0
下载
关闭预览

相关内容

【ICML2025】组合优化问题中的偏好优化
专知会员服务
12+阅读 · 2025年5月17日
【ICLR2025】AdaWM:基于自适应世界模型的自动驾驶规划
专知会员服务
16+阅读 · 2025年1月26日
《基于深度强化学习的战场策略》
专知会员服务
37+阅读 · 2025年1月13日
自动驾驶中的多智能体强化学习综述
专知会员服务
47+阅读 · 2024年8月20日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
176+阅读 · 2020年2月8日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【MIT博士论文】数据高效强化学习,176页pdf
【APC】先进过程控制系统(APC: Advanced Process Control)
产业智能官
69+阅读 · 2020年7月12日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
VIP会员
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员