强化学习与模仿学习已成为学习控制任务的基础框架,尤其体现在“大规模模仿预训练结合基于奖励的微调”这一两阶段范式中。本论文探讨了多种增强该范式在具身智能 (Embodied AI)、常识推理及科学 AI 领域的可扩展性与泛化性的机制。训练具备泛化能力的模型对于现实世界的部署至关重要,因为智能体必须稳健地处理与训练数据分布不同的输入。 提高泛化性的一种有效方法是扩展 (Scaling),即增加训练数据的多样性与规模,或扩大模型容量。在具身智能场景下,我们通过两种方式解决预训练阶段的数据瓶颈: 1. 开发了一种半监督序列模型,能够从智能体在环境中的连续、无结构视频中提取有意义的任务片段。通过利用这些提取的标注片段增强小型标注数据集,我们实现了与五倍全标注数据量相当的训练性能。 1. 引入了一种跨智能体学习框架,以实现不同形态 (Embodiments) 智能体间的数据集池化。该框架将共享的扩散规划器 (Diffusion Planner) 与智能体特有的逆动力学模型 (Inverse Dynamics Models) 相结合,其性能优于传统的跨智能体学习策略。

在通常通过预训练权重进行知识迁移的微调阶段,我们研究了将知识图谱集成到深度强化学习算法中作为替代迁移方法。我们的方法利用物体类别层级结构,在多个抽象维度上构建策略,显著提升了模型对未知物体的泛化能力。最后,针对科学智能体,我们通过构建大规模元数据标注的同行评审数据集来设计微调奖励信号,证明了基于科学嵌入 (Scientific Embedding) 的简单模型在预测引用量和评审分数方面比大语言模型更为可靠。

成为VIP会员查看完整内容
0

相关内容

【NTU博士论文】基于协作式多智能体强化学习的决策制定
多智能体强化学习控制与决策研究综述
专知会员服务
46+阅读 · 2024年11月23日
【密歇根博士论文】大规模机器学习序列决策,191页pdf
专知会员服务
53+阅读 · 2024年1月8日
结合进化算法的深度强化学习方法研究综述
专知会员服务
81+阅读 · 2022年7月16日
论文浅尝 | 基于深度序列模型的知识图谱补全
开放知识图谱
29+阅读 · 2019年5月19日
OpenAI丨深度强化学习关键论文列表
中国人工智能学会
17+阅读 · 2018年11月10日
【OpenAI】深度强化学习关键论文列表
专知
12+阅读 · 2018年11月10日
【推荐】深度学习思维导图
机器学习研究会
15+阅读 · 2017年8月20日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2月11日
VIP会员
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员