【博士论文】知识引导的序列决策算法：图结构、专家示教、人类及跨智能体经验的融合研究 - 专知VIP

会员服务 ·

12

序列决策 · 强化学习 · 博士论文 ·

【博士论文】知识引导的序列决策算法：图结构、专家示教、人类及跨智能体经验的融合研究

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

强化学习与模仿学习已成为学习控制任务的基础框架，尤其体现在一种结合了大规模模仿预训练与基于奖励的微调（Reward-based fine-tuning）的两阶段管线中。本论文研究了在具身智能、常识推理及科学人工智能（Scientific AI）领域中，增强该管线扩展性与泛化能力的多种机制。

训练具备泛化能力的模型对于实际部署至关重要，因为智能体必须稳健地处理偏离训练数据分布的输入。提升泛化性的一种有效途径是进行规模扩展（Scaling），即增加训练数据的多样性与容量，或增大模型的参数规模。在具身智能场景下，我们通过两种方式解决预训练阶段的训练数据瓶颈。首先，我们开发了一种半监督序列模型，能够从智能体与其环境交互的连续、非结构化视频中提取有意义的任务片段。通过利用这些提取的标注片段扩充小型标注数据集，我们实现了与五倍全标注数据训练相当的性能。

其次，为了实现不同物理形态（Embodiments）智能体数据集的汇聚，我们提出了一种跨智能体学习框架。该框架将共享的扩散规划器（Diffusion planner）与智能体特有的逆动力学模型相结合，其性能优于传统的跨智能体学习策略。在通常通过预训练权重进行知识迁移的微调阶段，我们研究了如何将知识图谱集成到深度强化学习算法中，作为知识迁移的另一种范式。我们的方法利用对象类别层级（Object class hierarchies）在多个抽象层级上组合策略，显著提升了模型对未知对象的泛化能力。最后，针对科学智能体，我们通过整理大规模元数据标注的同行评审数据集，设计了一种用于微调的奖励信号，并证明了基于科学嵌入（Scientific embedding）的简单模型在预测引用量和评审分数方面，比大语言模型更具可靠性。

成为VIP会员查看完整内容

20

相关内容

序列决策

【博士论文】面向可扩展且可信智能系统的强化学习

【博士论文】面向可扩展且可信智能系统的强化学习

专知会员服务

11+阅读 · 5月13日

【博士论文】知识引导的序列决策算法：整合图结构、演示数据、人类经验与跨智能体经验

【博士论文】知识引导的序列决策算法：整合图结构、演示数据、人类经验与跨智能体经验

专知会员服务

18+阅读 · 3月30日

【牛津博士论文】面向长时程决策任务的高效智能体训练方法

【牛津博士论文】面向长时程决策任务的高效智能体训练方法

专知会员服务

19+阅读 · 3月27日

【博士论文】大规模人工智能中的强化学习智能体：高效训练与更严谨分析

【博士论文】大规模人工智能中的强化学习智能体：高效训练与更严谨分析

专知会员服务

18+阅读 · 2025年7月1日

【NTU博士论文】基于协作式多智能体强化学习的决策制定

【NTU博士论文】基于协作式多智能体强化学习的决策制定

专知会员服务

40+阅读 · 2025年4月21日

《单智能体与多智能体深度强化学习方法的优化研究》219页

《单智能体与多智能体深度强化学习方法的优化研究》219页

专知会员服务

51+阅读 · 2025年4月5日

多智能体强化学习控制与决策研究综述

多智能体强化学习控制与决策研究综述

专知会员服务

48+阅读 · 2024年11月23日

【干货书】强化学习算法，98页pdf综合讲解人工智能和机器学习

【干货书】强化学习算法，98页pdf综合讲解人工智能和机器学习

专知会员服务

66+阅读 · 2021年2月21日

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

专知会员服务

24+阅读 · 2019年11月11日

【南洋理工大学课程】deep_reinforcement_learning（深度强化学习），109页ppt

【南洋理工大学课程】deep_reinforcement_learning（深度强化学习），109页ppt

专知会员服务

105+阅读 · 2019年11月2日

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

38+阅读 · 2023年4月13日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

16+阅读 · 2020年9月9日

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

专知

53+阅读 · 2019年12月1日

论文浅尝 | 基于深度序列模型的知识图谱补全

论文浅尝 | 基于深度序列模型的知识图谱补全

开放知识图谱

29+阅读 · 2019年5月19日

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

机器之心

20+阅读 · 2019年5月3日

清华大学孙茂松课题组:《图神经网络: 方法与应用》综述论文，20页pdf

清华大学孙茂松课题组:《图神经网络: 方法与应用》综述论文，20页pdf

专知

49+阅读 · 2018年12月23日

【OpenAI】深度强化学习关键论文列表

【OpenAI】深度强化学习关键论文列表

专知

12+阅读 · 2018年11月10日

每日论文 | 图形深度神经网络并行框架NGra；用人类注意力进行序列分类；针对多智能体协作的图卷积强化学习

每日论文 | 图形深度神经网络并行框架NGra；用人类注意力进行序列分类；针对多智能体协作的图卷积强化学习

论智

26+阅读 · 2018年10月30日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

40+阅读 · 2015年12月31日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

24+阅读 · 2015年12月31日

定位系统细胞启发的机器人情景认知地图构建与行为规划研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于极限学习单元的多生物特征图像深度学习建模与识别研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

Reinforcement Learning with Foundation Priors: Let the Embodied Agent Efficiently Learn on Its Own

Arxiv

0+阅读 · 4月23日

SEARL: Joint Optimization of Policy and Tool Graph Memory for Self-Evolving Agents

Arxiv

0+阅读 · 4月20日

Adaptive Domain Models: Bayesian Evolution, Warm Rotation, and Principled Training for Geometric and Neuromorphic AI

Arxiv

0+阅读 · 4月13日

SEARL: Joint Optimization of Policy and Tool Graph Memory for Self-Evolving Agents

Arxiv

0+阅读 · 4月13日

Behavior-Constrained Reinforcement Learning with Receding-Horizon Credit Assignment for High-Performance Control

Arxiv

0+阅读 · 4月3日

Deterministic Policy Gradient for Reinforcement Learning with Continuous Time and State

Arxiv

0+阅读 · 3月16日

Accelerating Robotic Reinforcement Learning with Agent Guidance

Arxiv

0+阅读 · 3月7日

Learning from Synthetic Data Improves Multi-hop Reasoning

Arxiv

0+阅读 · 3月2日

How to Train Your Deep Research Agent? Prompt, Reward, and Policy Optimization in Search-R1

Arxiv

0+阅读 · 2月23日

Interpretable machine learning: definitions, methods, and applications

Interpretable machine learning: definitions, methods, and applications

Arxiv

19+阅读 · 2019年1月14日

VIP会员

相关主题

最新内容

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

2+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

2+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

2+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

3+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

3+阅读 · 5月29日

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

3+阅读 · 5月29日

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

3+阅读 · 5月29日

“史诗怒火行动”中美军损失的作战飞机

“史诗怒火行动”中美军损失的作战飞机

专知会员服务

2+阅读 · 5月29日

ICML 2026 | 理解上下文持续学习中的泛化与遗忘

ICML 2026 | 理解上下文持续学习中的泛化与遗忘

专知会员服务

5+阅读 · 5月28日

Agent Harness综述：大模型智能体执行器工程全景

Agent Harness综述：大模型智能体执行器工程全景

专知会员服务

13+阅读 · 5月28日

审视现代战争中的 AI 赋能杀伤链系统及印度防务的战略要务（中文版）

审视现代战争中的 AI 赋能杀伤链系统及印度防务的战略要务（中文版）

专知会员服务

14+阅读 · 5月28日

分布式作战效能：乌克兰如何在战术层面重新定义火力打击、电子战与防空（中文版）

分布式作战效能：乌克兰如何在战术层面重新定义火力打击、电子战与防空（中文版）

专知会员服务

9+阅读 · 5月28日

马赛克防御与分布式指挥：伊朗的回击（中文版）

马赛克防御与分布式指挥：伊朗的回击（中文版）

专知会员服务

10+阅读 · 5月28日

《基于理论的威慑效能评估》

《基于理论的威慑效能评估》

专知会员服务

8+阅读 · 5月28日

《移动旅级战斗队转型中的支援单元指挥控制挑战》

《移动旅级战斗队转型中的支援单元指挥控制挑战》

专知会员服务

15+阅读 · 5月27日

相关VIP内容

【博士论文】面向可扩展且可信智能系统的强化学习

【博士论文】面向可扩展且可信智能系统的强化学习

专知会员服务

11+阅读 · 5月13日

【博士论文】知识引导的序列决策算法：整合图结构、演示数据、人类经验与跨智能体经验

【博士论文】知识引导的序列决策算法：整合图结构、演示数据、人类经验与跨智能体经验

专知会员服务

18+阅读 · 3月30日

【牛津博士论文】面向长时程决策任务的高效智能体训练方法

【牛津博士论文】面向长时程决策任务的高效智能体训练方法

专知会员服务

19+阅读 · 3月27日

【博士论文】大规模人工智能中的强化学习智能体：高效训练与更严谨分析

【博士论文】大规模人工智能中的强化学习智能体：高效训练与更严谨分析

专知会员服务

18+阅读 · 2025年7月1日

【NTU博士论文】基于协作式多智能体强化学习的决策制定

【NTU博士论文】基于协作式多智能体强化学习的决策制定

专知会员服务

40+阅读 · 2025年4月21日

《单智能体与多智能体深度强化学习方法的优化研究》219页

《单智能体与多智能体深度强化学习方法的优化研究》219页

专知会员服务

51+阅读 · 2025年4月5日

多智能体强化学习控制与决策研究综述

多智能体强化学习控制与决策研究综述

专知会员服务

48+阅读 · 2024年11月23日

【干货书】强化学习算法，98页pdf综合讲解人工智能和机器学习

【干货书】强化学习算法，98页pdf综合讲解人工智能和机器学习

专知会员服务

66+阅读 · 2021年2月21日

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

专知会员服务

24+阅读 · 2019年11月11日

【南洋理工大学课程】deep_reinforcement_learning（深度强化学习），109页ppt

【南洋理工大学课程】deep_reinforcement_learning（深度强化学习），109页ppt

专知会员服务

105+阅读 · 2019年11月2日

热门VIP内容

开通专知VIP会员享更多权益服务

AutoScientists：自组织智能体团队驱动长期科学实验

战略前沿人工智能的再思考（中文）

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

相关资讯

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

38+阅读 · 2023年4月13日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

16+阅读 · 2020年9月9日

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

专知

53+阅读 · 2019年12月1日

论文浅尝 | 基于深度序列模型的知识图谱补全

论文浅尝 | 基于深度序列模型的知识图谱补全

开放知识图谱

29+阅读 · 2019年5月19日

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

机器之心

20+阅读 · 2019年5月3日

清华大学孙茂松课题组:《图神经网络: 方法与应用》综述论文，20页pdf

清华大学孙茂松课题组:《图神经网络: 方法与应用》综述论文，20页pdf

专知

49+阅读 · 2018年12月23日

【OpenAI】深度强化学习关键论文列表

【OpenAI】深度强化学习关键论文列表

专知

12+阅读 · 2018年11月10日

每日论文 | 图形深度神经网络并行框架NGra；用人类注意力进行序列分类；针对多智能体协作的图卷积强化学习

每日论文 | 图形深度神经网络并行框架NGra；用人类注意力进行序列分类；针对多智能体协作的图卷积强化学习

论智

26+阅读 · 2018年10月30日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

40+阅读 · 2015年12月31日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

24+阅读 · 2015年12月31日

定位系统细胞启发的机器人情景认知地图构建与行为规划研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于极限学习单元的多生物特征图像深度学习建模与识别研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

相关论文

Reinforcement Learning with Foundation Priors: Let the Embodied Agent Efficiently Learn on Its Own

Arxiv

0+阅读 · 4月23日

SEARL: Joint Optimization of Policy and Tool Graph Memory for Self-Evolving Agents

Arxiv

0+阅读 · 4月20日

Adaptive Domain Models: Bayesian Evolution, Warm Rotation, and Principled Training for Geometric and Neuromorphic AI

Arxiv

0+阅读 · 4月13日

SEARL: Joint Optimization of Policy and Tool Graph Memory for Self-Evolving Agents

Arxiv

0+阅读 · 4月13日

Behavior-Constrained Reinforcement Learning with Receding-Horizon Credit Assignment for High-Performance Control

Arxiv

0+阅读 · 4月3日

Deterministic Policy Gradient for Reinforcement Learning with Continuous Time and State

Arxiv

0+阅读 · 3月16日

Accelerating Robotic Reinforcement Learning with Agent Guidance

Arxiv

0+阅读 · 3月7日

Learning from Synthetic Data Improves Multi-hop Reasoning

Arxiv

0+阅读 · 3月2日

How to Train Your Deep Research Agent? Prompt, Reward, and Policy Optimization in Search-R1

Arxiv

0+阅读 · 2月23日

Interpretable machine learning: definitions, methods, and applications

Interpretable machine learning: definitions, methods, and applications

Arxiv

19+阅读 · 2019年1月14日

微信扫码咨询专知VIP会员