Expert-level scientific reasoning remains challenging for large language models, particularly on benchmarks such as Humanity's Last Exam (HLE), where rigid tool pipelines, brittle multi-agent coordination, and inefficient test-time scaling often limit performance. We introduce ReThinker, a confidence-aware agentic framework that orchestrates retrieval, tool use, and multi-agent reasoning through a stage-wise Solver-Critic-Selector architecture. Rather than following a fixed pipeline, ReThinker dynamically allocates computation based on model confidence, enabling adaptive tool invocation, guided multi-dimensional reflection, and robust confidence-weighted selection. To support scalable training without human annotation, we further propose a reverse data synthesis pipeline and an adaptive trajectory recycling strategy that transform successful reasoning traces into high-quality supervision. Experiments on HLE, GAIA, and XBench demonstrate that ReThinker consistently outperforms state-of-the-art foundation models with tools and existing deep research systems, achieving state-of-the-art results on expert-level reasoning tasks.


翻译:专家级科学推理对于大型语言模型而言仍然具有挑战性,尤其是在诸如“人类终极考试”(HLE)等基准测试中,僵化的工具流程、脆弱的多智能体协调以及低效的测试时扩展常常限制了性能表现。我们提出了ReThinker,一个置信度感知的智能体框架,它通过分阶段的求解器-评判器-选择器架构,协调检索、工具使用和多智能体推理。ReThinker并非遵循固定的流程,而是根据模型置信度动态分配计算资源,从而实现自适应的工具调用、引导性的多维度反思以及鲁棒的置信度加权选择。为了支持无需人工标注的可扩展训练,我们进一步提出了一种反向数据合成流程和一种自适应轨迹回收策略,将成功的推理轨迹转化为高质量的监督数据。在HLE、GAIA和XBench上的实验表明,ReThinker在使用工具的情况下持续优于最先进的基座模型和现有的深度研究系统,在专家级推理任务上取得了最先进的结果。

0
下载
关闭预览

相关内容

AI进入推理模型时代,一文带你读懂思维链
专知会员服务
39+阅读 · 2025年3月17日
Vision-R1:激励多模态大语言模型中的推理能力
专知会员服务
23+阅读 · 2025年3月12日
复杂推理与慢思考
专知会员服务
48+阅读 · 2025年3月11日
【机器推理可解释性】Machine Reasoning Explainability
专知会员服务
35+阅读 · 2020年9月3日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
通过集成 XNNPACK 实现推理速度飞跃
TensorFlow
26+阅读 · 2020年7月30日
自然语言处理常识推理综述论文,60页pdf
专知
73+阅读 · 2019年4月4日
深入理解BERT Transformer ,不仅仅是注意力机制
大数据文摘
22+阅读 · 2019年3月19日
理解人类推理的深度学习
论智
19+阅读 · 2018年11月7日
【因果关系】由模仿“人脑”转向“因果推理”
产业智能官
10+阅读 · 2018年7月13日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员