Offline goal-conditioned reinforcement learning remains challenging for long-horizon tasks. While hierarchical approaches mitigate this issue by decomposing tasks, most existing methods rely on separate high- and low-level networks and generate only a single intermediate subgoal, making them inadequate for complex tasks that require coordinating multiple intermediate decisions. To address this limitation, we draw inspiration from the chain-of-thought paradigm and propose the Chain-of-Goals Hierarchical Policy (CoGHP), a novel framework that reformulates hierarchical decision-making as autoregressive sequence modeling within a unified architecture. Given a state and a final goal, CoGHP autoregressively generates a sequence of latent subgoals followed by the primitive action, where each latent subgoal acts as a reasoning step that conditions subsequent predictions. To implement this efficiently, we pioneer the use of an MLP-Mixer backbone, which supports cross-token communication and captures structural relationships among state, goal, latent subgoals, and action. Across challenging navigation and manipulation benchmarks, CoGHP consistently outperforms strong offline baselines, demonstrating improved performance on long-horizon tasks.


翻译:离线目标条件强化学习在长时域任务中仍然面临挑战。尽管分层方法通过任务分解缓解了这一问题,但现有方法大多依赖独立的高层与低层网络,且仅生成单一中间子目标,使其难以胜任需要协调多个中间决策的复杂任务。为解决这一局限,我们受思维链范式的启发,提出目标链式分层策略——一种在统一架构中将分层决策重构为自回归序列建模的新颖框架。给定状态与最终目标,CoGHP 以自回归方式生成一系列潜在子目标及原始动作,其中每个潜在子目标作为推理步骤条件化后续预测。为实现高效计算,我们率先采用MLP-Mixer骨干网络,该网络支持跨令牌通信并能捕捉状态、目标、潜在子目标与动作间的结构关系。在具有挑战性的导航与操作基准测试中,CoGHP 持续优于现有离线基线方法,显著提升了长时域任务的性能表现。

0
下载
关闭预览

相关内容

《基于分层多智能体强化学习的逼真空战协同策略》
专知会员服务
39+阅读 · 2025年10月30日
离线强化学习研究综述
专知会员服务
38+阅读 · 2025年1月12日
分层强化学习在无人机领域应用综述
专知会员服务
53+阅读 · 2024年3月19日
基于多智能体强化学习的协同目标分配
专知会员服务
136+阅读 · 2023年9月5日
基于多智能体深度强化学习的体系任务分配方法
专知会员服务
157+阅读 · 2023年5月4日
「深度分层强化学习DHRL」最新2022研究与进展综述
专知会员服务
99+阅读 · 2022年8月6日
深度学习时代的目标检测算法
炼数成金订阅号
40+阅读 · 2018年3月19日
综述:深度学习时代的目标检测算法
极市平台
27+阅读 · 2018年3月17日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2月16日
VIP会员
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员