Deep research agents rely on iterative retrieval and reasoning to answer complex queries, but scaling test-time computation raises significant efficiency concerns. We study how to allocate reasoning budget in deep search pipelines, focusing on the role of listwise reranking. Using the BrowseComp-Plus benchmark, we analyze tradeoffs between model scale, reasoning effort, reranking depth, and total token cost via a novel effective token cost (ETC) metric. Our results show that reranking consistently improves retrieval and end-to-end accuracy, and that moderate reranking often yields larger gains than increasing search-time reasoning, achieving comparable accuracy at substantially lower cost. All our code is available at https://github.com/sahel-sh/DeepHone


翻译:深度研究智能体依赖迭代检索与推理回答复杂查询,但扩展测试时计算复杂度会显著降低效率。我们研究了如何分配深度搜索流程中的推理预算,重点关注列表式重排序的作用。通过BrowseComp-Plus基准测试,我们采用新型有效指令成本指标分析了模型规模、推理深度、重排序跨度与总指令成本之间的折衷关系。结果表明,重排序能持续提升检索和端到端准确率,且适度重排序带来的性能提升通常优于增加搜索时推理量,在显著降低成本的同时达到相近准确率。所有代码已开源至https://github.com/sahel-sh/DeepHone

0
下载
关闭预览

相关内容

排序是计算机内经常进行的一种操作,其目的是将一组“无序”的记录序列调整为“有序”的记录序列。分内部排序和外部排序。若整个排序过程不需要访问外存便能完成,则称此类排序问题为内部排序。反之,若参加排序的记录数量很大,整个序列的排序过程不可能在内存中完成,则称此类排序问题为外部排序。内部排序的过程是一个逐步扩大记录的有序序列长度的过程。
从DeepSeek-R1学到的三个核心经验
专知会员服务
21+阅读 · 2025年10月16日
DeepSeek模型在中文语境下的安全性评估
专知会员服务
26+阅读 · 2025年2月21日
DeepSeek R1和推理模型,我有几点看法
专知会员服务
38+阅读 · 2025年2月10日
【RecSys22教程】多阶段推荐系统的神经重排序,90页ppt
专知会员服务
27+阅读 · 2022年9月30日
探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff?
深度强化学习实验室
13+阅读 · 2020年8月23日
推荐召回算法之深度召回模型串讲
AINLP
22+阅读 · 2019年6月14日
理解人类推理的深度学习
论智
19+阅读 · 2018年11月7日
深度学习时代的目标检测算法
炼数成金订阅号
40+阅读 · 2018年3月19日
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月7日
VIP会员
最新内容
《打造“黄金舰队”》57页报告
专知会员服务
0+阅读 · 4分钟前
《北约数字教官网络发展路径》128页报告
专知会员服务
0+阅读 · 23分钟前
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
6+阅读 · 6月25日
网状网络及其在军事领域的运用
专知会员服务
7+阅读 · 6月25日
无美国参与的欧洲战争方式(万字长文)
专知会员服务
8+阅读 · 6月25日
《国防领域敏感性分析白皮书》
专知会员服务
8+阅读 · 6月25日
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
10+阅读 · 6月24日
重新思考无人机时代的生存能力
专知会员服务
10+阅读 · 6月24日
相关资讯
探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff?
深度强化学习实验室
13+阅读 · 2020年8月23日
推荐召回算法之深度召回模型串讲
AINLP
22+阅读 · 2019年6月14日
理解人类推理的深度学习
论智
19+阅读 · 2018年11月7日
深度学习时代的目标检测算法
炼数成金订阅号
40+阅读 · 2018年3月19日
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员