O-Researcher：基于多智能体蒸馏与智能体强化学习的开放式深度研究模型 (O-Researcher: An Open Ended Deep Research Model via Multi-Agent Distillation and Agentic RL) - 专知论文

会员服务 ·

0

深度研究 · 智能体 · 蒸馏 · 合成 · 多智能体 ·

O-Researcher: An Open Ended Deep Research Model via Multi-Agent Distillation and Agentic RL

翻译：O-Researcher：基于多智能体蒸馏与智能体强化学习的开放式深度研究模型

Yi Yao,He Zhu,Piaohong Wang,Jincheng Ren,Xinlong Yang,Qianben Chen,Xiaowan Li,Dingfeng Shi,Jiaxian Li,Qiexiang Wang,Sinuo Wang,Xinpeng Liu,Jiaqi Wu,Minghao Liu,Wangchunshu Zhou

from arxiv, 22 pages

The performance gap between closed-source and open-source large language models (LLMs) is largely attributed to disparities in access to high-quality training data. To bridge this gap, we introduce a novel framework for the automated synthesis of sophisticated, research-grade instructional data. Our approach centers on a multi-agent workflow where collaborative AI agents simulate complex tool-integrated reasoning to generate diverse and high-fidelity data end-to-end. Leveraging this synthesized data, we develop a two-stage training strategy that integrates supervised fine-tuning with a novel reinforcement learning method, designed to maximize model alignment and capability. Extensive experiments demonstrate that our framework empowers open-source models across multiple scales, enabling them to achieve new state-of-the-art performance on the major deep research benchmark. This work provides a scalable and effective pathway for advancing open-source LLMs without relying on proprietary data or models.

翻译：闭源与开源大型语言模型（LLM）之间的性能差距主要源于对高质量训练数据的获取差异。为弥合这一差距，我们提出了一种自动化合成复杂研究级指令数据的新框架。该方法以多智能体工作流为核心，通过协作的AI智能体模拟集成工具的复杂推理过程，端到端地生成多样化且高保真的数据。基于此合成数据，我们开发了一种两阶段训练策略，将监督微调与新颖的强化学习方法相结合，旨在最大化模型的对齐能力与性能。大量实验表明，该框架能够赋能不同规模的开源模型，使其在主流深度研究基准测试中取得新的最优性能。本工作为推进开源LLM的发展提供了一条可扩展且有效的路径，且无需依赖专有数据或模型。

0

相关内容

深度研究

智能体世界模型：面向智能体化强化学习的无限合成环境

智能体世界模型：面向智能体化强化学习的无限合成环境

专知会员服务

20+阅读 · 2月11日

智能体评判者（Agent-as-a-Judge）研究综述

智能体评判者（Agent-as-a-Judge）研究综述

专知会员服务

37+阅读 · 1月9日

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

专知会员服务

23+阅读 · 2025年10月22日

最新新Agent综述！76页327篇论文梳理，北交大桑基韬教授团队发布《迈向模型原生智能体式人工智能的范式转变综述》

最新新Agent综述！76页327篇论文梳理，北交大桑基韬教授团队发布《迈向模型原生智能体式人工智能的范式转变综述》

专知会员服务

37+阅读 · 2025年10月17日

基于大语言模型的深度搜索智能体综述：范式、优化、评测与挑战

基于大语言模型的深度搜索智能体综述：范式、优化、评测与挑战

专知会员服务

33+阅读 · 2025年8月11日

【ICML2025】MetaAgent：基于有限状态机的多智能体系统自动构建方法

【ICML2025】MetaAgent：基于有限状态机的多智能体系统自动构建方法

专知会员服务

15+阅读 · 2025年7月31日

基于大语言模型的智能体优化研究综述

基于大语言模型的智能体优化研究综述

专知会员服务

59+阅读 · 2025年3月25日

大小模型协同的跨媒体智能研究

大小模型协同的跨媒体智能研究

专知会员服务

30+阅读 · 2025年1月27日

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

专知会员服务

170+阅读 · 2023年9月15日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

65+阅读 · 2022年8月25日

「博弈论视角下多智能体强化学习」研究综述

「博弈论视角下多智能体强化学习」研究综述

专知

58+阅读 · 2022年4月30日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

15+阅读 · 2020年9月9日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

基于深度学习的联合作战态势智能辅助分析研究

国家自然科学基金

332+阅读 · 2017年12月31日

基于多目标优化的约束模式挖掘方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向大数据跨媒体检索的多模态哈希学习方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于结构化方法的复杂研发项目多领域集成分析与优化研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

Reinforcement World Model Learning for LLM-based Agents

Arxiv

0+阅读 · 2月5日

DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation

Arxiv

0+阅读 · 2月3日

Towards Scientific Intelligence: A Survey of LLM-based Scientific Agents

Arxiv

0+阅读 · 2月2日

DynaWeb: Model-Based Reinforcement Learning of Web Agents

Arxiv

0+阅读 · 1月29日

ALRM: Agentic LLM for Robotic Manipulation

Arxiv

0+阅读 · 1月29日

Game-Theoretic Lens on LLM-based Multi-Agent Systems

Arxiv

0+阅读 · 1月21日

Agents of Diffusion: Enhancing Diffusion Language Models with Multi-Agent Reinforcement Learning for Structured Data Generation (Extended Version)

Arxiv

0+阅读 · 1月12日

IDRBench: Interactive Deep Research Benchmark

Arxiv

0+阅读 · 1月10日

Youtu-Agent: Scaling Agent Productivity with Automated Generation and Hybrid Policy Optimization

Arxiv

0+阅读 · 2025年12月31日

Reinforcement Learning-Augmented LLM Agents for Collaborative Decision Making and Performance Optimization

Arxiv

0+阅读 · 2025年12月31日

VIP会员

文章信息

相关主题

相关VIP内容

智能体世界模型：面向智能体化强化学习的无限合成环境

智能体世界模型：面向智能体化强化学习的无限合成环境

专知会员服务

20+阅读 · 2月11日

智能体评判者（Agent-as-a-Judge）研究综述

智能体评判者（Agent-as-a-Judge）研究综述

专知会员服务

37+阅读 · 1月9日

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

专知会员服务

23+阅读 · 2025年10月22日

最新新Agent综述！76页327篇论文梳理，北交大桑基韬教授团队发布《迈向模型原生智能体式人工智能的范式转变综述》

最新新Agent综述！76页327篇论文梳理，北交大桑基韬教授团队发布《迈向模型原生智能体式人工智能的范式转变综述》

专知会员服务

37+阅读 · 2025年10月17日

基于大语言模型的深度搜索智能体综述：范式、优化、评测与挑战

基于大语言模型的深度搜索智能体综述：范式、优化、评测与挑战

专知会员服务

33+阅读 · 2025年8月11日

【ICML2025】MetaAgent：基于有限状态机的多智能体系统自动构建方法

【ICML2025】MetaAgent：基于有限状态机的多智能体系统自动构建方法

专知会员服务

15+阅读 · 2025年7月31日

基于大语言模型的智能体优化研究综述

基于大语言模型的智能体优化研究综述

专知会员服务

59+阅读 · 2025年3月25日

大小模型协同的跨媒体智能研究

大小模型协同的跨媒体智能研究

专知会员服务

30+阅读 · 2025年1月27日

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

专知会员服务

170+阅读 · 2023年9月15日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】基于自适应表征的高效视觉建模

《多域作战中融合网络、电子战与动能机动》

AI智能体时代大模型安全风险与攻防新挑战

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

65+阅读 · 2022年8月25日

「博弈论视角下多智能体强化学习」研究综述

「博弈论视角下多智能体强化学习」研究综述

专知

58+阅读 · 2022年4月30日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

15+阅读 · 2020年9月9日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

Reinforcement World Model Learning for LLM-based Agents

Arxiv

0+阅读 · 2月5日

DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation

Arxiv

0+阅读 · 2月3日

Towards Scientific Intelligence: A Survey of LLM-based Scientific Agents

Arxiv

0+阅读 · 2月2日

DynaWeb: Model-Based Reinforcement Learning of Web Agents

Arxiv

0+阅读 · 1月29日

ALRM: Agentic LLM for Robotic Manipulation

Arxiv

0+阅读 · 1月29日

Game-Theoretic Lens on LLM-based Multi-Agent Systems

Arxiv

0+阅读 · 1月21日

Agents of Diffusion: Enhancing Diffusion Language Models with Multi-Agent Reinforcement Learning for Structured Data Generation (Extended Version)

Arxiv

0+阅读 · 1月12日

IDRBench: Interactive Deep Research Benchmark

Arxiv

0+阅读 · 1月10日

Youtu-Agent: Scaling Agent Productivity with Automated Generation and Hybrid Policy Optimization

Arxiv

0+阅读 · 2025年12月31日

Reinforcement Learning-Augmented LLM Agents for Collaborative Decision Making and Performance Optimization

Arxiv

0+阅读 · 2025年12月31日

相关基金

基于深度学习的联合作战态势智能辅助分析研究

国家自然科学基金

332+阅读 · 2017年12月31日

基于多目标优化的约束模式挖掘方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向大数据跨媒体检索的多模态哈希学习方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于结构化方法的复杂研发项目多领域集成分析与优化研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员