强化学习与模仿学习已成为学习控制任务的基础框架,尤其体现在“大规模模仿预训练结合基于奖励的微调”这一两阶段范式中。本论文探讨了多种增强该范式在具身智能 (Embodied AI)、常识推理及科学 AI 领域的可扩展性与泛化性的机制。训练具备泛化能力的模型对于现实世界的部署至关重要,因为智能体必须稳健地处理与训练数据分布不同的输入。 提高泛化性的一种有效方法是扩展 (Scaling),即增加训练数据的多样性与规模,或扩大模型容量。在具身智能场景下,我们通过两种方式解决预训练阶段的数据瓶颈: 1. 开发了一种半监督序列模型,能够从智能体在环境中的连续、无结构视频中提取有意义的任务片段。通过利用这些提取的标注片段增强小型标注数据集,我们实现了与五倍全标注数据量相当的训练性能。 1. 引入了一种跨智能体学习框架,以实现不同形态 (Embodiments) 智能体间的数据集池化。该框架将共享的扩散规划器 (Diffusion Planner) 与智能体特有的逆动力学模型 (Inverse Dynamics Models) 相结合,其性能优于传统的跨智能体学习策略。
在通常通过预训练权重进行知识迁移的微调阶段,我们研究了将知识图谱集成到深度强化学习算法中作为替代迁移方法。我们的方法利用物体类别层级结构,在多个抽象维度上构建策略,显著提升了模型对未知物体的泛化能力。最后,针对科学智能体,我们通过构建大规模元数据标注的同行评审数据集来设计微调奖励信号,证明了基于科学嵌入 (Scientific Embedding) 的简单模型在预测引用量和评审分数方面比大语言模型更为可靠。