Frontier scientific reasoning remains a major challenge for large language models (LLMs), where even the strongest commercial systems fall short of expert-level performance. A closer look at model behavior reveals substantial complementarity that single-model evaluation hides: different frontier models excel on different question types, and no single model captures the full picture. We present SciOrch, a framework that trains a lightweight 8B model to orchestrate frontier LLMs for scientific reasoning. The orchestrator decomposes each question, delegates sub-problems to selected commercial models through API calls, and synthesizes a final answer. Training such an orchestrator is fundamentally harder than conventional agentic RL: each action triggers an API call that is expensive in both dollar cost and latency, making standard online rollouts infeasible. We address this with MCTS-based approach, producing diverse orchestration trajectories, extracting per-node single-turn samples, and optimizing the orchestrator with GRPO-style training. On a 240-question test set spanning SGI-Reasoning and Scientists' First Exam, SciOrch reaches 56.66% average accuracy, outperforming the strongest single commercial model by 3.74% and the strongest multi-agent baseline by 3.33%. It also attains the best accuracy on both SGI and SFE with less than half the API cost of typical multi-agent methods.


翻译:[翻译摘要] 前沿科学推理仍是大语言模型(LLMs)面临的一项重大挑战,即使是最强大的商业系统在此类任务中也未达到专家级水平。对模型行为的深入分析揭示了单模型评估所掩盖的显著互补性:不同前沿模型在不同类型问题上表现各异,没有任何单一模型能全面覆盖全部问题。我们提出SciOrch框架,该框架通过训练一个轻量级的8B模型来编排前沿大语言模型以完成科学推理任务。编排器负责分解每个问题,通过API调用将子问题委托给选定的商业模型,并综合生成最终答案。训练此类编排器在本质上比传统的基于智能体的强化学习(RL)更为困难:每次动作触发都会产生API调用,这既增加了经济成本也延长了延迟时间,导致标准的在线探索(online rollouts)不可行。我们利用基于蒙特卡洛树搜索(MCTS)的方法解决此问题,生成多样化的编排轨迹(orchestration trajectories),提取每个节点的单轮样本,并通过GRPO风格的训练优化编排器。在一个涵盖SGI-Reasoning和《科学家首考》(Scientists' First Exam, SFE)的240道测试题集上,SciOrch达到了平均56.66%的准确率,分别比最强的单一商业模型和最强的多智能体基线提升了3.74%和3.33%。同时,在SGI和SFE两项任务上,SciOrch也取得了最优准确率,且其API成本仅为典型多智能体方法的一半以下。

0
下载
关闭预览

相关内容

通过逻辑推理赋能大语言模型:综述
专知会员服务
32+阅读 · 2025年2月24日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
最新内容
定向能反无人机系统最新发展动态
专知会员服务
0+阅读 · 31分钟前
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
1+阅读 · 48分钟前
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
相关VIP内容
通过逻辑推理赋能大语言模型:综述
专知会员服务
32+阅读 · 2025年2月24日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员