Hierarchical policies decompose language-conditioned long-horizon robotic manipulation into a high-level planner and a low-level controller. However, effective coordination between HL and LL requires that both components operate on compatible subgoal distributions. We propose ORCHID, a self-training framework that enables stable online improvement of hierarchical diffusion policies by aligning planning and control through iterative refinement. By filtering policy samples via environment feedback, ORCHID identifies trajectories where the planner and controller are jointly successful and distills them back into both modules via supervised learning. This process induces a bidirectional co-adaptation: the planner grounds its subgoals in the actual reaching capabilities of the controller, while the controller specializes in the trajectory structures the planner produces. By relying on supervised distillation of filtered on-policy samples, ORCHID avoids the instability typical of online hierarchical gradient-based RL training with diffusion models. On the CALVIN benchmark, ORCHID allows a lightweight, initially weak model to outperform pure offline methods, including a Vision-Language-Action model twice its size.


翻译:层次化策略将语言引导的长时域机器人操作分解为高层规划器与低层控制器。然而,高层与低层之间的有效协调要求两个组件在兼容的子目标分布上运行。我们提出ORCHID——一个通过迭代精化对齐规划与控制、实现层次化扩散策略稳定在线提升的自训练框架。通过环境反馈过滤策略样本,ORCHID识别出规划器与控制器共同成功的轨迹,并通过监督学习将其蒸馏回两个模块。该过程引发双向共适应:规划器将子目标锚定于控制器的实际可达能力,而控制器则专精于规划器生成的轨迹结构。通过依赖过滤后的在线策略样本的监督蒸馏,ORCHID避免了在线层次化梯度强化学习与扩散模型训练中固有的不稳定性。在CALVIN基准测试中,ORCHID使一个轻量级、初始性能较弱的模型超越了纯离线方法,包括一个规模为其两倍的视觉-语言-动作模型。

0
下载
关闭预览

相关内容

综述 | OPSD:大语言模型的在线策略自蒸馏
专知会员服务
8+阅读 · 6月1日
《基于图神经网络与强化学习的自主空战决策研究》
专知会员服务
32+阅读 · 2025年5月15日
【牛津大学博士论文】有效的离线训练与高效的在线适应
分层强化学习在无人机领域应用综述
专知会员服务
54+阅读 · 2024年3月19日
用Attention玩转CV,一文总览自注意力语义分割进展
迁移自适应学习最新综述,附21页论文下载
领域自适应学习论文大列表
专知
71+阅读 · 2019年3月2日
【泡泡图灵智库】密集相关的自监督视觉描述学习(RAL)
泡泡机器人SLAM
11+阅读 · 2018年10月6日
论文笔记之attention mechanism专题1:SA-Net(CVPR 2018)
统计学习与视觉计算组
16+阅读 · 2018年4月5日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
1+阅读 · 今天14:45
定向能反无人机系统最新发展动态
专知会员服务
5+阅读 · 今天13:50
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 今天13:33
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员