Deep reinforcement learning agents are often misaligned, as they over-exploit early reward signals. Recently, several symbolic approaches have addressed these challenges by encoding sparse objectives along with aligned plans. However, purely symbolic architectures are complex to scale and difficult to apply to continuous settings. Hence, we propose a hybrid approach, inspired by humans' ability to acquire new skills. We use a two-stage framework that injects symbolic structure into neural-based reinforcement learning agents without sacrificing the expressivity of deep policies. Our method, called Hybrid Hierarchical RL (H^2RL), introduces a logical option-based pretraining strategy to steer the learning policy away from short-term reward loops and toward goal-directed behavior while allowing the final policy to be refined via standard environment interaction. Empirically, we show that this approach consistently improves long-horizon decision-making and yields agents that outperform strong neural, symbolic, and neuro-symbolic baselines.


翻译:深度强化学习智能体常存在行为失准问题,因其过度利用早期奖励信号。近期,若干符号化方法通过编码稀疏目标与对齐规划应对这些挑战。然而,纯符号化架构难以扩展,且难以应用于连续环境。为此,受人类获取新技能能力的启发,我们提出一种混合方法。我们采用两阶段框架,在不牺牲深度策略表达能力的前提下,将符号化结构注入基于神经网络的强化学习智能体。我们的方法称为混合分层强化学习(H^2RL),引入基于逻辑选项的预训练策略,引导学习策略远离短期奖励循环,转向目标导向行为,同时允许最终策略通过标准环境交互进行优化。实验表明,该方法能持续提升长时程决策能力,并产生优于强神经基线、符号基线及神经符号基线的智能体。

0
下载
关闭预览

相关内容

深度强化学习与模仿学习导论
专知会员服务
25+阅读 · 2025年12月10日
【NTU博士论文】当深度学习遇上归纳逻辑程序设计
专知会员服务
24+阅读 · 2025年5月6日
基于课程学习的深度强化学习研究综述
专知会员服务
58+阅读 · 2022年11月28日
结合进化算法的深度强化学习方法研究综述
专知会员服务
81+阅读 · 2022年7月16日
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
19+阅读 · 2020年9月1日
探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff?
深度强化学习实验室
13+阅读 · 2020年8月23日
强化学习的两大话题之一,仍有极大探索空间
AI科技评论
22+阅读 · 2020年8月22日
深度强化学习简介
专知
30+阅读 · 2018年12月3日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
335+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2月15日
VIP会员
最新内容
《新兴技术武器化及其对全球风险的影响》
专知会员服务
8+阅读 · 4月29日
《帕兰泰尔平台介绍:信息分析平台》
专知会员服务
20+阅读 · 4月29日
智能体化世界建模:基础、能力、规律及展望
专知会员服务
11+阅读 · 4月28日
相关资讯
相关基金
国家自然科学基金
335+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员