【博士论文】知识引导的序列决策算法：整合图结构、演示数据、人类经验与跨智能体经验 - 专知VIP

会员服务 ·

0

序列决策 · 具身智能 ·

【博士论文】知识引导的序列决策算法：整合图结构、演示数据、人类经验与跨智能体经验

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

强化学习与模仿学习已成为学习控制任务的基础框架，尤其体现在“大规模模仿预训练结合基于奖励的微调”这一两阶段范式中。本论文探讨了多种增强该范式在具身智能 (Embodied AI)、常识推理及科学 AI 领域的可扩展性与泛化性的机制。训练具备泛化能力的模型对于现实世界的部署至关重要，因为智能体必须稳健地处理与训练数据分布不同的输入。提高泛化性的一种有效方法是扩展 (Scaling)，即增加训练数据的多样性与规模，或扩大模型容量。在具身智能场景下，我们通过两种方式解决预训练阶段的数据瓶颈： 1. 开发了一种半监督序列模型，能够从智能体在环境中的连续、无结构视频中提取有意义的任务片段。通过利用这些提取的标注片段增强小型标注数据集，我们实现了与五倍全标注数据量相当的训练性能。 1. 引入了一种跨智能体学习框架，以实现不同形态 (Embodiments) 智能体间的数据集池化。该框架将共享的扩散规划器 (Diffusion Planner) 与智能体特有的逆动力学模型 (Inverse Dynamics Models) 相结合，其性能优于传统的跨智能体学习策略。

在通常通过预训练权重进行知识迁移的微调阶段，我们研究了将知识图谱集成到深度强化学习算法中作为替代迁移方法。我们的方法利用物体类别层级结构，在多个抽象维度上构建策略，显著提升了模型对未知物体的泛化能力。最后，针对科学智能体，我们通过构建大规模元数据标注的同行评审数据集来设计微调奖励信号，证明了基于科学嵌入 (Scientific Embedding) 的简单模型在预测引用量和评审分数方面比大语言模型更为可靠。

成为VIP会员查看完整内容

0

相关内容

序列决策

【牛津博士论文】面向长时程决策任务的高效智能体训练方法

【牛津博士论文】面向长时程决策任务的高效智能体训练方法

专知会员服务

12+阅读 · 3月27日

【伯克利博士论文】衔接示范与决策：可证明的模仿学习理论与算法

【伯克利博士论文】衔接示范与决策：可证明的模仿学习理论与算法

专知会员服务

12+阅读 · 2025年9月4日

【博士论文】大规模人工智能中的强化学习智能体：高效训练与更严谨分析

【博士论文】大规模人工智能中的强化学习智能体：高效训练与更严谨分析

专知会员服务

17+阅读 · 2025年7月1日

【NTU博士论文】基于协作式多智能体强化学习的决策制定

【NTU博士论文】基于协作式多智能体强化学习的决策制定

专知会员服务

40+阅读 · 2025年4月21日

多智能体强化学习控制与决策研究综述

多智能体强化学习控制与决策研究综述

专知会员服务

46+阅读 · 2024年11月23日

【密歇根博士论文】大规模机器学习序列决策，191页pdf

【密歇根博士论文】大规模机器学习序列决策，191页pdf

专知会员服务

53+阅读 · 2024年1月8日

结合进化算法的深度强化学习方法研究综述

结合进化算法的深度强化学习方法研究综述

专知会员服务

81+阅读 · 2022年7月16日

【干货书】强化学习算法，98页pdf综合讲解人工智能和机器学习

【干货书】强化学习算法，98页pdf综合讲解人工智能和机器学习

专知会员服务

66+阅读 · 2021年2月21日

最新《模仿学习(Imitation Learning》进展报告, 加州理工Yisong Yue教授，附下载

最新《模仿学习(Imitation Learning》进展报告, 加州理工Yisong Yue教授，附下载

专知会员服务

41+阅读 · 2020年12月6日

【南洋理工大学课程】deep_reinforcement_learning（深度强化学习），109页ppt

【南洋理工大学课程】deep_reinforcement_learning（深度强化学习），109页ppt

专知会员服务

105+阅读 · 2019年11月2日

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

38+阅读 · 2023年4月13日

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

论文浅尝 | 基于深度序列模型的知识图谱补全

论文浅尝 | 基于深度序列模型的知识图谱补全

开放知识图谱

29+阅读 · 2019年5月19日

清华大学孙茂松课题组:《图神经网络: 方法与应用》综述论文，20页pdf

清华大学孙茂松课题组:《图神经网络: 方法与应用》综述论文，20页pdf

专知

49+阅读 · 2018年12月23日

OpenAI丨深度强化学习关键论文列表

OpenAI丨深度强化学习关键论文列表

中国人工智能学会

17+阅读 · 2018年11月10日

【OpenAI】深度强化学习关键论文列表

【OpenAI】深度强化学习关键论文列表

专知

12+阅读 · 2018年11月10日

每日论文 | 图形深度神经网络并行框架NGra；用人类注意力进行序列分类；针对多智能体协作的图卷积强化学习

每日论文 | 图形深度神经网络并行框架NGra；用人类注意力进行序列分类；针对多智能体协作的图卷积强化学习

论智

26+阅读 · 2018年10月30日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

【推荐】深度学习思维导图

【推荐】深度学习思维导图

机器学习研究会

15+阅读 · 2017年8月20日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

40+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

23+阅读 · 2015年12月31日

基于极限学习单元的多生物特征图像深度学习建模与识别研究

国家自然科学基金

2+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

49+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

Deterministic Policy Gradient for Reinforcement Learning with Continuous Time and State

Arxiv

0+阅读 · 3月16日

Pretraining in Actor-Critic Reinforcement Learning for Robot Locomotion

Arxiv

0+阅读 · 3月9日

Learning from Synthetic Data Improves Multi-hop Reasoning

Arxiv

0+阅读 · 3月2日

How to Train Your Deep Research Agent? Prompt, Reward, and Policy Optimization in Search-R1

Arxiv

0+阅读 · 2月23日

Cross-Embodiment Offline Reinforcement Learning for Heterogeneous Robot Datasets

Arxiv

0+阅读 · 2月20日

Online Learning with Improving Agents: Multiclass, Budgeted Agents and Bandit Learners

Arxiv

0+阅读 · 2月19日

LLM-Mediated Guidance of MARL Systems

Arxiv

0+阅读 · 2月11日

A Review of Online Diffusion Policy RL Algorithms for Scalable Robotic Control

Arxiv

0+阅读 · 2月9日

A Systematic Study of Data Modalities and Strategies for Co-training Large Behavior Models for Robot Manipulation

Arxiv

0+阅读 · 2月1日

Interpretable machine learning: definitions, methods, and applications

Interpretable machine learning: definitions, methods, and applications

Arxiv

19+阅读 · 2019年1月14日

VIP会员

相关主题

相关VIP内容

【牛津博士论文】面向长时程决策任务的高效智能体训练方法

【牛津博士论文】面向长时程决策任务的高效智能体训练方法

专知会员服务

12+阅读 · 3月27日

【伯克利博士论文】衔接示范与决策：可证明的模仿学习理论与算法

【伯克利博士论文】衔接示范与决策：可证明的模仿学习理论与算法

专知会员服务

12+阅读 · 2025年9月4日

【博士论文】大规模人工智能中的强化学习智能体：高效训练与更严谨分析

【博士论文】大规模人工智能中的强化学习智能体：高效训练与更严谨分析

专知会员服务

17+阅读 · 2025年7月1日

【NTU博士论文】基于协作式多智能体强化学习的决策制定

【NTU博士论文】基于协作式多智能体强化学习的决策制定

专知会员服务

40+阅读 · 2025年4月21日

多智能体强化学习控制与决策研究综述

多智能体强化学习控制与决策研究综述

专知会员服务

46+阅读 · 2024年11月23日

【密歇根博士论文】大规模机器学习序列决策，191页pdf

【密歇根博士论文】大规模机器学习序列决策，191页pdf

专知会员服务

53+阅读 · 2024年1月8日

结合进化算法的深度强化学习方法研究综述

结合进化算法的深度强化学习方法研究综述

专知会员服务

81+阅读 · 2022年7月16日

【干货书】强化学习算法，98页pdf综合讲解人工智能和机器学习

【干货书】强化学习算法，98页pdf综合讲解人工智能和机器学习

专知会员服务

66+阅读 · 2021年2月21日

最新《模仿学习(Imitation Learning》进展报告, 加州理工Yisong Yue教授，附下载

最新《模仿学习(Imitation Learning》进展报告, 加州理工Yisong Yue教授，附下载

专知会员服务

41+阅读 · 2020年12月6日

【南洋理工大学课程】deep_reinforcement_learning（深度强化学习），109页ppt

【南洋理工大学课程】deep_reinforcement_learning（深度强化学习），109页ppt

专知会员服务

105+阅读 · 2019年11月2日

热门VIP内容

开通专知VIP会员享更多权益服务

从静态模板到动态运行时图：大语言模型智能体（LLM Agents）工作流优化综述

《对抗环境下面向特种作战的LoRa通信》最新130页

【博士论文】知识引导的序列决策算法：整合图结构、演示数据、人类经验与跨智能体经验

伊朗战争中首次亮相的新武器与技术

相关资讯

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

38+阅读 · 2023年4月13日

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

论文浅尝 | 基于深度序列模型的知识图谱补全

论文浅尝 | 基于深度序列模型的知识图谱补全

开放知识图谱

29+阅读 · 2019年5月19日

清华大学孙茂松课题组:《图神经网络: 方法与应用》综述论文，20页pdf

清华大学孙茂松课题组:《图神经网络: 方法与应用》综述论文，20页pdf

专知

49+阅读 · 2018年12月23日

OpenAI丨深度强化学习关键论文列表

OpenAI丨深度强化学习关键论文列表

中国人工智能学会

17+阅读 · 2018年11月10日

【OpenAI】深度强化学习关键论文列表

【OpenAI】深度强化学习关键论文列表

专知

12+阅读 · 2018年11月10日

每日论文 | 图形深度神经网络并行框架NGra；用人类注意力进行序列分类；针对多智能体协作的图卷积强化学习

每日论文 | 图形深度神经网络并行框架NGra；用人类注意力进行序列分类；针对多智能体协作的图卷积强化学习

论智

26+阅读 · 2018年10月30日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

【推荐】深度学习思维导图

【推荐】深度学习思维导图

机器学习研究会

15+阅读 · 2017年8月20日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

40+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

23+阅读 · 2015年12月31日

基于极限学习单元的多生物特征图像深度学习建模与识别研究

国家自然科学基金

2+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

49+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

相关论文

Deterministic Policy Gradient for Reinforcement Learning with Continuous Time and State

Arxiv

0+阅读 · 3月16日

Pretraining in Actor-Critic Reinforcement Learning for Robot Locomotion

Arxiv

0+阅读 · 3月9日

Learning from Synthetic Data Improves Multi-hop Reasoning

Arxiv

0+阅读 · 3月2日

How to Train Your Deep Research Agent? Prompt, Reward, and Policy Optimization in Search-R1

Arxiv

0+阅读 · 2月23日

Cross-Embodiment Offline Reinforcement Learning for Heterogeneous Robot Datasets

Arxiv

0+阅读 · 2月20日

Online Learning with Improving Agents: Multiclass, Budgeted Agents and Bandit Learners

Arxiv

0+阅读 · 2月19日

LLM-Mediated Guidance of MARL Systems

Arxiv

0+阅读 · 2月11日

A Review of Online Diffusion Policy RL Algorithms for Scalable Robotic Control

Arxiv

0+阅读 · 2月9日

A Systematic Study of Data Modalities and Strategies for Co-training Large Behavior Models for Robot Manipulation

Arxiv

0+阅读 · 2月1日

Interpretable machine learning: definitions, methods, and applications

Interpretable machine learning: definitions, methods, and applications

Arxiv

19+阅读 · 2019年1月14日

微信扫码咨询专知VIP会员