Deep research requires reasoning over web evidence to answer open-ended questions, and it is a core capability for AI agents. Yet many deep research agents still rely on implicit, unstructured search behavior that causes redundant exploration and brittle evidence aggregation. Motivated by Anthropic's "think" tool paradigm and insights from the information-retrieval literature, we introduce Q+, a set of query and evidence processing tools that make web search more deliberate by guiding query planning, monitoring search progress, and extracting evidence from long web snapshots. We integrate Q+ into the browser sub-agent of Eigent, an open-source, production-ready multi-agent workforce for computer use, yielding EigentSearch-Q+. Across four benchmarks (SimpleQA-Verified, FRAMES, WebWalkerQA, and X-Bench DeepSearch), Q+ improves Eigent's browser agent benchmark-size-weighted average accuracy by 3.0, 3.8, and 0.6 percentage points (pp) for GPT-4.1, GPT-5.1, and Minimax M2.5 model backends, respectively. Case studies further suggest that EigentSearch-Q+ produces more coherent tool-calling trajectories by making search progress and evidence handling explicit.


翻译:深度研究需要通过网络证据进行推理以回答开放性问题的能力,这是AI代理的核心能力。然而,许多深度研究代理仍依赖隐式、非结构化的搜索行为,导致冗余探索和脆弱的证据聚合。受Anthropic的"思考"工具范式及信息检索领域研究成果的启发,我们提出Q+——一组查询与证据处理工具,通过引导查询规划、监控搜索进程、从长网页快照中提取证据,使网络搜索更具策略性。我们将Q+集成至Eigent(一个开源、可投入生产的面向计算机使用的多代理协作系统)的浏览器子代理中,构建EigentSearch-Q+。在四个基准测试(SimpleQA-Verified、FRAMES、WebWalkerQA、X-Bench DeepSearch)上,Q+使Eigent的浏览器代理在GPT-4.1、GPT-5.1和Minimax M2.5模型后端上的基准规模加权平均准确率分别提升3.0、3.8和0.6个百分点。案例研究进一步表明,EigentSearch-Q+通过使搜索进度和证据处理显式化,生成了更连贯的工具调用轨迹。

0
下载
关闭预览

相关内容

DeepSeek R1和推理模型,我有几点看法
专知会员服务
38+阅读 · 2025年2月10日
【NeurIPS2024】在复杂视觉推理场景中学习迭代和并行推理
专知会员服务
17+阅读 · 2024年11月30日
通过集成 XNNPACK 实现推理速度飞跃
TensorFlow
26+阅读 · 2020年7月30日
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
DeepSeek R1和推理模型,我有几点看法
专知会员服务
38+阅读 · 2025年2月10日
【NeurIPS2024】在复杂视觉推理场景中学习迭代和并行推理
专知会员服务
17+阅读 · 2024年11月30日
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员