Meta-reinforcement learning enables fast adaptation by extracting shared structure from related tasks, but existing end-to-end methods often couple task inference with embodiment-specific control. This coupling can obscure non-parametric task semantics, reduce sample efficiency, and limit cross-agent reuse. We propose a meta-knowledge reutilization framework that learns task-level knowledge on a dynamics-simplified agent and transfers it to heterogeneous agents. The framework uses a Bayesian non-parametric prior to organize latent task modes and a high-level policy to generate task-level magnitude guidance. To bridge reusable task knowledge with different embodiments, we introduce a semantic-magnitude interface and a lightweight temporal adaptor, which convert frozen meta-knowledge into temporally aligned subgoals for embodiment-specific low-level controllers. Experiments on multiple locomotion agents show that our framework reduces final-step tracking error by 94.75% -- 99.79% compared with recent state-of-the-art baselines and achieves comparable deployment performance with about 23.8% of their interaction data.


翻译:元强化学习通过从相关任务中提取共享结构实现快速适应,但现有端到端方法常将任务推理与具身特定控制耦合。这种耦合可能掩盖非参数化任务语义、降低样本效率并限制跨智能体重用。我们提出一种元知识重用框架,该框架在动力学简化智能体上学习任务级知识,并将其迁移至异构智能体。该框架采用贝叶斯非参数先验组织潜在任务模式,并通过高层策略生成任务级幅度引导。为桥接可重用任务知识与不同具身形态,我们引入语义-幅度接口与轻量级时序适配器,将冻结的元知识转换为具身特定低级控制器所需的时序对齐子目标。在多运动智能体上的实验表明,相较于近期最先进基线方法,本框架将最终步长跟踪误差降低94.75%-99.79%,且仅需约23.8%的交互数据即可达到相当的部署性能。

0
下载
关闭预览

相关内容

【HKUST博士论文】复杂任务下的元学习
专知会员服务
24+阅读 · 2025年1月14日
《元强化学习》最新,70页ppt
专知会员服务
83+阅读 · 2022年9月16日
【ICML2022】Transformer是元强化学习器
专知会员服务
56+阅读 · 2022年6月15日
专知会员服务
28+阅读 · 2021年5月24日
元学习(meta learning) 最新进展综述论文
专知会员服务
281+阅读 · 2020年5月8日
【普林斯顿大学-微软】加权元学习,Weighted Meta-Learning
专知会员服务
40+阅读 · 2020年3月25日
元学习—Meta Learning的兴起
专知
44+阅读 · 2019年10月19日
元学习(Meta Learning)最全论文、视频、书籍资源整理
深度学习与NLP
22+阅读 · 2019年6月20日
元学习(Meta-Learning) 综述及五篇顶会论文推荐
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Meta-Learning 元学习:学会快速学习
GAN生成式对抗网络
20+阅读 · 2018年12月8日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Arxiv
0+阅读 · 5月18日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关VIP内容
相关资讯
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员