Beyond Mimicry: Toward Lifelong Adaptability in Imitation Learning

Imitation learning stands at a crossroads: despite decades of progress, current imitation learning agents remain sophisticated memorisation machines, excelling at replay but failing when contexts shift or goals evolve. This paper argues that this failure is not technical but foundational: imitation learning has been optimised for the wrong objective. We propose a research agenda that redefines success from perfect replay to compositional adaptability. Such adaptability hinges on learning behavioural primitives once and recombining them through novel contexts without retraining. We establish metrics for compositional generalisation, propose hybrid architectures, and outline interdisciplinary research directions drawing on cognitive science and cultural evolution. Agents that embed adaptability at the core of imitation learning thus have an essential capability for operating in an open-ended world.

翻译：模仿学习正处于十字路口：尽管经过数十年的发展，当前的模仿学习智能体本质上仍是精密的记忆机器，擅长复现但无法应对情境迁移或目标演化。本文认为这一缺陷并非技术性问题，而是源于根本性原因：模仿学习长期以来被优化以实现错误的目标。我们提出一项研究议程，将成功标准从完美复现重新定义为组合适应性。这种适应性的关键在于一次性习得行为基元，并在未经重新训练的情况下通过新情境对其进行重组。我们建立了组合泛化的评估指标，提出了混合架构，并借鉴认知科学与文化演化理论勾勒出跨学科研究方向。将适应性内化为模仿学习核心的智能体，由此获得了在开放世界中运行的关键能力。

相关内容

模仿学习

关注 324

模仿学习是学习尝试模仿专家行为从而获取最佳性能的一系列任务。目前主流方法包括监督式模仿学习、随机混合迭代学习和数据聚合模拟学习等方法。模仿学习（Imitation Learning）背后的原理是是通过隐含地给学习器关于这个世界的先验信息，比如执行、学习人类行为。在模仿学习任务中，智能体（agent）为了学习到策略从而尽可能像人类专家那样执行一种行为，它会寻找一种最佳的方式来使用由该专家示范的训练集（输入-输出对）。当智能体学习人类行为时，虽然我们也需要使用模仿学习，但实时的行为模拟成本会非常高。与之相反，吴恩达提出的学徒学习（Apprenticeship learning）执行的是存粹的贪婪/利用（exploitative）策略，并使用强化学习方法遍历所有的（状态和行为）轨迹（trajectories）来学习近优化策略。它需要极难的计略（maneuvers），而且几乎不可能从未观察到的状态还原。模仿学习能够处理这些未探索到的状态，所以可为自动驾驶这样的许多任务提供更可靠的通用框架。

深度强化学习与模仿学习导论

专知会员服务

25+阅读 · 2025年12月10日

深度学习时代的模仿学习：新型分类体系与最新研究进展

专知会员服务

11+阅读 · 2025年11月6日

生成模型中持续学习的综合综述

专知会员服务

25+阅读 · 2025年6月17日

模仿学习综述：传统与新进展

专知会员服务

55+阅读 · 2023年2月18日