强化学习与模仿学习已成为学习控制任务的基础框架,尤其体现在一种结合了大规模模仿预训练与基于奖励的微调(Reward-based fine-tuning)的两阶段管线中。本论文研究了在具身智能、常识推理及科学人工智能(Scientific AI)领域中,增强该管线扩展性与泛化能力的多种机制。

训练具备泛化能力的模型对于实际部署至关重要,因为智能体必须稳健地处理偏离训练数据分布的输入。提升泛化性的一种有效途径是进行规模扩展(Scaling),即增加训练数据的多样性与容量,或增大模型的参数规模。在具身智能场景下,我们通过两种方式解决预训练阶段的训练数据瓶颈。首先,我们开发了一种半监督序列模型,能够从智能体与其环境交互的连续、非结构化视频中提取有意义的任务片段。通过利用这些提取的标注片段扩充小型标注数据集,我们实现了与五倍全标注数据训练相当的性能。

其次,为了实现不同物理形态(Embodiments)智能体数据集的汇聚,我们提出了一种跨智能体学习框架。该框架将共享的扩散规划器(Diffusion planner)与智能体特有的逆动力学模型相结合,其性能优于传统的跨智能体学习策略。在通常通过预训练权重进行知识迁移的微调阶段,我们研究了如何将知识图谱集成到深度强化学习算法中,作为知识迁移的另一种范式。我们的方法利用对象类别层级(Object class hierarchies)在多个抽象层级上组合策略,显著提升了模型对未知对象的泛化能力。最后,针对科学智能体,我们通过整理大规模元数据标注的同行评审数据集,设计了一种用于微调的奖励信号,并证明了基于科学嵌入(Scientific embedding)的简单模型在预测引用量和评审分数方面,比大语言模型更具可靠性。

成为VIP会员查看完整内容
5

相关内容

【NTU博士论文】基于协作式多智能体强化学习的决策制定
多智能体强化学习控制与决策研究综述
专知会员服务
47+阅读 · 2024年11月23日
结合进化算法的深度强化学习方法研究综述
专知会员服务
81+阅读 · 2022年7月16日
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
15+阅读 · 2020年9月9日
论文浅尝 | 基于深度序列模型的知识图谱补全
开放知识图谱
29+阅读 · 2019年5月19日
【OpenAI】深度强化学习关键论文列表
专知
12+阅读 · 2018年11月10日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
VIP会员
最新内容
美军夺取伊朗离岸岛屿分析:高风险,低收益
专知会员服务
7+阅读 · 4月10日
将生成式人工智能整合进军事战术决策中
专知会员服务
9+阅读 · 4月10日
美国2026最新发布《人工智能国家政策框架》
专知会员服务
7+阅读 · 4月10日
大模型错因诊断分析
专知会员服务
5+阅读 · 4月9日
视频生成基础模型进展
专知会员服务
7+阅读 · 4月9日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员