Adversarial Inverse Reinforcement Learning (AIRL) has shown promise in addressing the sparse reward problem in reinforcement learning (RL) by inferring dense reward functions from expert demonstrations. However, its performance in highly complex, imperfect-information settings remains largely unexplored. To explore this gap, we evaluate AIRL in the context of Heads-Up Limit Hold'em (HULHE) poker, a domain characterized by sparse, delayed rewards and significant uncertainty. In this setting, we find that AIRL struggles to infer a sufficiently informative reward function. To overcome this limitation, we contribute Hybrid-AIRL (H-AIRL), an extension that enhances reward inference and policy learning by incorporating a supervised loss derived from expert data and a stochastic regularization mechanism. We evaluate H-AIRL on a carefully selected set of Gymnasium benchmarks and the HULHE poker setting. Additionally, we analyze the learned reward function through visualization to gain deeper insights into the learning process. Our experimental results show that H-AIRL achieves higher sample efficiency and more stable learning compared to AIRL. This highlights the benefits of incorporating supervised signals into inverse RL and establishes H-AIRL as a promising framework for tackling challenging, real-world settings.


翻译:对抗性逆强化学习(AIRL)通过从专家演示中推断密集奖励函数,在解决强化学习(RL)中的稀疏奖励问题方面展现出潜力。然而,其在高度复杂、信息不完善环境中的性能仍很大程度上未被探索。为填补这一空白,我们在单挑有限注德州扑克(HULHE)这一具有稀疏、延迟奖励及显著不确定性的领域中评估了AIRL。在此环境下,我们发现AIRL难以推断出足够信息量的奖励函数。为克服这一局限,我们提出了混合对抗性逆强化学习(H-AIRL),该扩展通过引入源自专家数据的监督损失和随机正则化机制,增强了奖励推断与策略学习。我们在精心挑选的Gymnasium基准测试集及HULHE扑克环境中评估了H-AIRL。此外,我们通过可视化分析学习到的奖励函数,以更深入理解学习过程。实验结果表明,与AIRL相比,H-AIRL实现了更高的样本效率和更稳定的学习性能。这凸显了将监督信号融入逆强化学习的优势,并确立了H-AIRL作为应对具有挑战性的现实世界场景的有前景框架。

0
下载
关闭预览

相关内容

[ICML2024]消除偏差:微调基础模型以进行半监督学习
专知会员服务
18+阅读 · 2024年5月23日
【ICML2023】面向决策Transformer的未来条件无监督预训练
专知会员服务
44+阅读 · 2023年5月30日
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
【AAAI2022】自适应的随机平滑防御的鲁棒性认证方法
专知会员服务
26+阅读 · 2021年12月27日
专知会员服务
22+阅读 · 2021年5月27日
专知会员服务
29+阅读 · 2020年10月2日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【MIT】硬负样本的对比学习
专知
13+阅读 · 2020年10月15日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
TensorFlow 2.0深度强化学习指南
云栖社区
18+阅读 · 2019年2月1日
Meta-Learning 元学习:学会快速学习
GAN生成式对抗网络
20+阅读 · 2018年12月8日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
18+阅读 · 2024年12月27日
Arxiv
175+阅读 · 2023年4月20日
Arxiv
181+阅读 · 2023年3月24日
VIP会员
相关资讯
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【MIT】硬负样本的对比学习
专知
13+阅读 · 2020年10月15日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
TensorFlow 2.0深度强化学习指南
云栖社区
18+阅读 · 2019年2月1日
Meta-Learning 元学习:学会快速学习
GAN生成式对抗网络
20+阅读 · 2018年12月8日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员