Online Self-Training for Co-Adaptation in Hierarchical Diffusion Policies - 专知论文

会员服务 ·

0

在线 · 控制器 · 共适应 · 自训练 · 样本 ·

Online Self-Training for Co-Adaptation in Hierarchical Diffusion Policies

翻译：面向层次化扩散策略共适应的在线自训练

Clemence Grislain,Mathilde Kappel,Olivier Sigaud,Mohamed Chetouani

from arxiv, Accepted at ICML 2026 Workshop on Decision-Making from Offline Datasets to Online Adaptation (DEMO)

Hierarchical policies decompose language-conditioned long-horizon robotic manipulation into a high-level planner and a low-level controller. However, effective coordination between HL and LL requires that both components operate on compatible subgoal distributions. We propose ORCHID, a self-training framework that enables stable online improvement of hierarchical diffusion policies by aligning planning and control through iterative refinement. By filtering policy samples via environment feedback, ORCHID identifies trajectories where the planner and controller are jointly successful and distills them back into both modules via supervised learning. This process induces a bidirectional co-adaptation: the planner grounds its subgoals in the actual reaching capabilities of the controller, while the controller specializes in the trajectory structures the planner produces. By relying on supervised distillation of filtered on-policy samples, ORCHID avoids the instability typical of online hierarchical gradient-based RL training with diffusion models. On the CALVIN benchmark, ORCHID allows a lightweight, initially weak model to outperform pure offline methods, including a Vision-Language-Action model twice its size.

翻译：层次化策略将语言引导的长时域机器人操作分解为高层规划器与低层控制器。然而，高层与低层之间的有效协调要求两个组件在兼容的子目标分布上运行。我们提出ORCHID——一个通过迭代精化对齐规划与控制、实现层次化扩散策略稳定在线提升的自训练框架。通过环境反馈过滤策略样本，ORCHID识别出规划器与控制器共同成功的轨迹，并通过监督学习将其蒸馏回两个模块。该过程引发双向共适应：规划器将子目标锚定于控制器的实际可达能力，而控制器则专精于规划器生成的轨迹结构。通过依赖过滤后的在线策略样本的监督蒸馏，ORCHID避免了在线层次化梯度强化学习与扩散模型训练中固有的不稳定性。在CALVIN基准测试中，ORCHID使一个轻量级、初始性能较弱的模型超越了纯离线方法，包括一个规模为其两倍的视觉-语言-动作模型。

0

相关内容

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

专知会员服务

19+阅读 · 6月16日

综述 | OPSD：大语言模型的在线策略自蒸馏

综述 | OPSD：大语言模型的在线策略自蒸馏

专知会员服务

10+阅读 · 6月1日

《面向未来战场网络：人工智能辅助的万物软件化、虚拟化与智能化以提升网络接入能力》

《面向未来战场网络：人工智能辅助的万物软件化、虚拟化与智能化以提升网络接入能力》

专知会员服务

32+阅读 · 1月15日

《基于自适应模拟的军事决策训练：利用物联网衍生的认知与情绪反馈》

《基于自适应模拟的军事决策训练：利用物联网衍生的认知与情绪反馈》

专知会员服务

24+阅读 · 2025年9月29日

《基于图神经网络与强化学习的自主空战决策研究》

《基于图神经网络与强化学习的自主空战决策研究》

专知会员服务

33+阅读 · 2025年5月15日

【牛津大学博士论文】有效的离线训练与高效的在线适应

【牛津大学博士论文】有效的离线训练与高效的在线适应

专知会员服务

36+阅读 · 2024年4月25日

分层强化学习在无人机领域应用综述

分层强化学习在无人机领域应用综述

专知会员服务

55+阅读 · 2024年3月19日

《集群机器人中自组织任务分配的全局到局部设计》2022最新12页论文，布鲁塞尔自由大学等

《集群机器人中自组织任务分配的全局到局部设计》2022最新12页论文，布鲁塞尔自由大学等

专知会员服务

52+阅读 · 2022年11月14日

【多机器人任务分配】《通过学习的子团队性能对异构多机器人路由问题进行分层规划》美国陆军、MIT等2022最新论文

【多机器人任务分配】《通过学习的子团队性能对异构多机器人路由问题进行分层规划》美国陆军、MIT等2022最新论文

专知会员服务

80+阅读 · 2022年11月2日

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

专知会员服务

57+阅读 · 2019年11月8日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

最新《迁移学习:域自适应理论》综述论文，128页ppt讲解迁移学习与最优传输

最新《迁移学习:域自适应理论》综述论文，128页ppt讲解迁移学习与最优传输

专知

16+阅读 · 2020年4月27日

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

专知

24+阅读 · 2020年1月12日

用Attention玩转CV，一文总览自注意力语义分割进展

用Attention玩转CV，一文总览自注意力语义分割进展

机器之心

14+阅读 · 2019年8月26日

迁移自适应学习最新综述，附21页论文下载

迁移自适应学习最新综述，附21页论文下载

专知

34+阅读 · 2019年3月13日

领域自适应学习论文大列表

领域自适应学习论文大列表

专知

71+阅读 · 2019年3月2日

【泡泡图灵智库】密集相关的自监督视觉描述学习（RAL）

【泡泡图灵智库】密集相关的自监督视觉描述学习（RAL）

泡泡机器人SLAM

11+阅读 · 2018年10月6日

面向大规模在线学习的社会化推荐模型与方法

面向大规模在线学习的社会化推荐模型与方法

MOOC

10+阅读 · 2018年6月8日

【前沿跟进】Google, OpenAI提出层次强化学习新思路

【前沿跟进】Google, OpenAI提出层次强化学习新思路

CreateAMind

13+阅读 · 2018年5月31日

论文笔记之attention mechanism专题1:SA-Net（CVPR 2018）

论文笔记之attention mechanism专题1:SA-Net（CVPR 2018）

统计学习与视觉计算组

16+阅读 · 2018年4月5日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

空地机器人网络的同时视觉目标定位与分布式运动规划

国家自然科学基金

4+阅读 · 2015年12月31日

随机非线性量化反馈系统的自适应模糊控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

集中式协作频谱感知系统的多层次优化

国家自然科学基金

2+阅读 · 2015年12月31日

面向主体行为网的自适应作战机理研究

国家自然科学基金

24+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

18+阅读 · 2012年12月31日

网络化环境下面向态势感知的多无人机协同控制与管理方法

国家自然科学基金

24+阅读 · 2011年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

HumanoidArena: Benchmarking Egocentric Hierarchical Whole-body Learning

Arxiv

0+阅读 · 6月16日

APEX: Adaptive Policy Execution for Precise Manipulation

Arxiv

0+阅读 · 6月15日

Training and Evaluating Diffusion Policies with Long Context Lengths

Arxiv

0+阅读 · 6月15日

Trust-Region Diffusion Policies for Massively Parallel On-Policy RL

Arxiv

0+阅读 · 6月13日

Ambient Diffusion Policy: Imitation Learning from Suboptimal Data in Robotics

Arxiv

0+阅读 · 6月10日

Guided Discovery of New Behaviors using Diffusion Policies

Arxiv

0+阅读 · 6月7日

PACT: Self-Evolving Physical Safety Alignment for Diffusion Policies in Embodied Manipulation

Arxiv

0+阅读 · 6月7日

Integrated Hierarchical Decision-Making in Inverse Kinematic Planning and Control

Arxiv

0+阅读 · 6月6日

Automata-Conditioned Cooperative Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 6月1日

Efficiently Solving Mixed-Hierarchy Games with Quasi-Policy Approximations

Arxiv

0+阅读 · 5月14日

VIP会员

文章信息

相关主题

最新内容

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

专知会员服务

1+阅读 · 今天7:13

俄乌无人机战争的六大启示

俄乌无人机战争的六大启示

专知会员服务

3+阅读 · 今天7:07

《无人机空中监控：通信实验洞察》

《无人机空中监控：通信实验洞察》

专知会员服务

2+阅读 · 今天7:05

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

专知会员服务

2+阅读 · 今天6:59

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

12+阅读 · 8月2日

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

5+阅读 · 8月2日

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

9+阅读 · 8月2日

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

11+阅读 · 8月2日

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

5+阅读 · 8月2日

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

9+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

7+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

7+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

7+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

5+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

13+阅读 · 7月31日

相关VIP内容

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

专知会员服务

19+阅读 · 6月16日

综述 | OPSD：大语言模型的在线策略自蒸馏

综述 | OPSD：大语言模型的在线策略自蒸馏

专知会员服务

10+阅读 · 6月1日

《面向未来战场网络：人工智能辅助的万物软件化、虚拟化与智能化以提升网络接入能力》

《面向未来战场网络：人工智能辅助的万物软件化、虚拟化与智能化以提升网络接入能力》

专知会员服务

32+阅读 · 1月15日

《基于自适应模拟的军事决策训练：利用物联网衍生的认知与情绪反馈》

《基于自适应模拟的军事决策训练：利用物联网衍生的认知与情绪反馈》

专知会员服务

24+阅读 · 2025年9月29日

《基于图神经网络与强化学习的自主空战决策研究》

《基于图神经网络与强化学习的自主空战决策研究》

专知会员服务

33+阅读 · 2025年5月15日

【牛津大学博士论文】有效的离线训练与高效的在线适应

【牛津大学博士论文】有效的离线训练与高效的在线适应

专知会员服务

36+阅读 · 2024年4月25日

分层强化学习在无人机领域应用综述

分层强化学习在无人机领域应用综述

专知会员服务

55+阅读 · 2024年3月19日

《集群机器人中自组织任务分配的全局到局部设计》2022最新12页论文，布鲁塞尔自由大学等

《集群机器人中自组织任务分配的全局到局部设计》2022最新12页论文，布鲁塞尔自由大学等

专知会员服务

52+阅读 · 2022年11月14日

【多机器人任务分配】《通过学习的子团队性能对异构多机器人路由问题进行分层规划》美国陆军、MIT等2022最新论文

【多机器人任务分配】《通过学习的子团队性能对异构多机器人路由问题进行分层规划》美国陆军、MIT等2022最新论文

专知会员服务

80+阅读 · 2022年11月2日

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

专知会员服务

57+阅读 · 2019年11月8日

热门VIP内容

开通专知VIP会员享更多权益服务

俄乌无人机战争的六大启示

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《无人机空中监控：通信实验洞察》

相关资讯

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

最新《迁移学习:域自适应理论》综述论文，128页ppt讲解迁移学习与最优传输

最新《迁移学习:域自适应理论》综述论文，128页ppt讲解迁移学习与最优传输

专知

16+阅读 · 2020年4月27日

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

专知

24+阅读 · 2020年1月12日

用Attention玩转CV，一文总览自注意力语义分割进展

用Attention玩转CV，一文总览自注意力语义分割进展

机器之心

14+阅读 · 2019年8月26日

迁移自适应学习最新综述，附21页论文下载

迁移自适应学习最新综述，附21页论文下载

专知

34+阅读 · 2019年3月13日

领域自适应学习论文大列表

领域自适应学习论文大列表

专知

71+阅读 · 2019年3月2日

【泡泡图灵智库】密集相关的自监督视觉描述学习（RAL）

【泡泡图灵智库】密集相关的自监督视觉描述学习（RAL）

泡泡机器人SLAM

11+阅读 · 2018年10月6日

面向大规模在线学习的社会化推荐模型与方法

面向大规模在线学习的社会化推荐模型与方法

MOOC

10+阅读 · 2018年6月8日

【前沿跟进】Google, OpenAI提出层次强化学习新思路

【前沿跟进】Google, OpenAI提出层次强化学习新思路

CreateAMind

13+阅读 · 2018年5月31日

论文笔记之attention mechanism专题1:SA-Net（CVPR 2018）

论文笔记之attention mechanism专题1:SA-Net（CVPR 2018）

统计学习与视觉计算组

16+阅读 · 2018年4月5日

相关论文

HumanoidArena: Benchmarking Egocentric Hierarchical Whole-body Learning

Arxiv

0+阅读 · 6月16日

APEX: Adaptive Policy Execution for Precise Manipulation

Arxiv

0+阅读 · 6月15日

Training and Evaluating Diffusion Policies with Long Context Lengths

Arxiv

0+阅读 · 6月15日

Trust-Region Diffusion Policies for Massively Parallel On-Policy RL

Arxiv

0+阅读 · 6月13日

Ambient Diffusion Policy: Imitation Learning from Suboptimal Data in Robotics

Arxiv

0+阅读 · 6月10日

Guided Discovery of New Behaviors using Diffusion Policies

Arxiv

0+阅读 · 6月7日

PACT: Self-Evolving Physical Safety Alignment for Diffusion Policies in Embodied Manipulation

Arxiv

0+阅读 · 6月7日

Integrated Hierarchical Decision-Making in Inverse Kinematic Planning and Control

Arxiv

0+阅读 · 6月6日

Automata-Conditioned Cooperative Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 6月1日

Efficiently Solving Mixed-Hierarchy Games with Quasi-Policy Approximations

Arxiv

0+阅读 · 5月14日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

空地机器人网络的同时视觉目标定位与分布式运动规划

国家自然科学基金

4+阅读 · 2015年12月31日

随机非线性量化反馈系统的自适应模糊控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

集中式协作频谱感知系统的多层次优化

国家自然科学基金

2+阅读 · 2015年12月31日

面向主体行为网的自适应作战机理研究

国家自然科学基金

24+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

18+阅读 · 2012年12月31日

网络化环境下面向态势感知的多无人机协同控制与管理方法

国家自然科学基金

24+阅读 · 2011年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员