强化学习与模仿学习已成为学习控制任务的基础框架,尤其体现在一种结合了大规模模仿预训练与基于奖励的微调(Reward-based fine-tuning)的两阶段管线中。本论文研究了在具身智能、常识推理及科学人工智能(Scientific AI)领域中,增强该管线扩展性与泛化能力的多种机制。
训练具备泛化能力的模型对于实际部署至关重要,因为智能体必须稳健地处理偏离训练数据分布的输入。提升泛化性的一种有效途径是进行规模扩展(Scaling),即增加训练数据的多样性与容量,或增大模型的参数规模。在具身智能场景下,我们通过两种方式解决预训练阶段的训练数据瓶颈。首先,我们开发了一种半监督序列模型,能够从智能体与其环境交互的连续、非结构化视频中提取有意义的任务片段。通过利用这些提取的标注片段扩充小型标注数据集,我们实现了与五倍全标注数据训练相当的性能。
其次,为了实现不同物理形态(Embodiments)智能体数据集的汇聚,我们提出了一种跨智能体学习框架。该框架将共享的扩散规划器(Diffusion planner)与智能体特有的逆动力学模型相结合,其性能优于传统的跨智能体学习策略。在通常通过预训练权重进行知识迁移的微调阶段,我们研究了如何将知识图谱集成到深度强化学习算法中,作为知识迁移的另一种范式。我们的方法利用对象类别层级(Object class hierarchies)在多个抽象层级上组合策略,显著提升了模型对未知对象的泛化能力。最后,针对科学智能体,我们通过整理大规模元数据标注的同行评审数据集,设计了一种用于微调的奖励信号,并证明了基于科学嵌入(Scientific embedding)的简单模型在预测引用量和评审分数方面,比大语言模型更具可靠性。