This paper introduces a novel Deep Researcher architecture designed to generate detailed research reports on complex PhD level topics by addressing the inherent limitations of the Parallel Scaling paradigm. Our system utilizes two key innovations: Sequential Research Plan Refinement via Reflection and a Candidates Crossover algorithm. The sequential refinement process is demonstrated as an efficient method that allows the agent to maintain a centralized Global Research Context, enabling it to look back at current progress, reason about the research plan, and intelligently make changes at runtime. This dynamic adaptation contrasts with parallel approaches, which often suffer from siloed knowledge. The Candidates Crossover algorithm further enhances search efficiency by deploying multiple LLM candidates with varied parameters to explore a larger search space, with their findings synthesized to curate a comprehensive final research response. The process concludes with One Shot Report Generation, ensuring the final document is informed by a unified narrative and high fact density. Powered by the Gemini 2.5 Pro model, our Deep Researcher was evaluated on the DeepResearch Bench, a globally recognized benchmark of 100 doctoral level research tasks. Our architecture achieved an overall score of 46.21, demonstrating superior performance by surpassing leading deep research agents such as Claude Researcher, Nvidia AIQ Research Assistant, Perplexity Research, Kimi Researcher and Grok Deeper Search present on the DeepResearch Bench actively running leaderboard. This performance marginally exceeds our previous work, Static DRA, and reinforces the finding that sequential scaling consistently outperforms the parallel self consistency paradigm.


翻译:本文提出了一种新颖的深度研究员架构,旨在通过解决并行扩展范式固有的局限性,生成关于复杂博士级别主题的详细研究报告。我们的系统采用了两项关键创新:基于反思的序列化研究计划优化与候选方案交叉算法。序列化优化过程被证明是一种高效方法,使智能体能够维持一个集中的全局研究上下文,从而回顾当前进展、推理研究计划,并在运行时智能地做出调整。这种动态适应与并行方法形成对比,后者常受限于知识孤岛问题。候选方案交叉算法通过部署多个具有不同参数的大型语言模型候选者来探索更大的搜索空间,并综合其发现以构建全面的最终研究响应,从而进一步提升搜索效率。该过程以一次性报告生成为终结,确保最终文档具有统一的叙事逻辑和高事实密度。基于Gemini 2.5 Pro模型驱动的深度研究员在DeepResearch Bench(一个包含100项博士级研究任务的全球公认基准测试集)上进行了评估。我们的架构获得了46.21的综合得分,在DeepResearch Bench实时运行排行榜上超越了Claude Researcher、Nvidia AIQ Research Assistant、Perplexity Research、Kimi Researcher及Grok Deeper Search等领先的深度研究智能体,展现出卓越性能。该表现略优于我们先前的工作Static DRA,并进一步证实了序列化扩展范式持续优于并行自洽范式的结论。

0
下载
关闭预览

相关内容

数学上,序列是被排成一列的对象(或事件);这样每个元素不是在其他元素之前,就是在其他元素之后。这里,元素之间的顺序非常重要。
Deep Research(深度研究):系统性综述
专知会员服务
50+阅读 · 2025年12月3日
面向深度研究系统的强化学习基础:综述
专知会员服务
23+阅读 · 2025年9月22日
深度研究系统的强化学习基础:综述
专知会员服务
30+阅读 · 2025年9月10日
深度学习可解释性研究进展
专知
19+阅读 · 2020年6月26日
综述 | 近年来深度学习的重要研究成果(附PDF)
数据派THU
14+阅读 · 2018年8月15日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
最新内容
非对称优势:美海军开发低成本反无人机技术
专知会员服务
4+阅读 · 今天4:39
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
5+阅读 · 今天2:48
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
7+阅读 · 今天2:43
【NTU博士论文】3D人体动作生成
专知会员服务
6+阅读 · 4月24日
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
8+阅读 · 4月24日
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
13+阅读 · 4月24日
《多域作战面临复杂现实》
专知会员服务
9+阅读 · 4月24日
《印度的多域作战:条令与能力发展》报告
专知会员服务
4+阅读 · 4月24日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员