Three paradigmatic forms of inference recur across scientific reasoning: deduction, induction, and causal abduction. Reliably evaluating LLMs on these in scientific settings is currently out of reach: scientific benchmarks built on human annotations are costly and lack mechanistic ground truth, while synthetic logical-reasoning benchmarks do not resemble real scientific documents. We introduce SciR, a benchmark that combines multi-paradigm reasoning with controllable scientific rendering, anchored on three paradigmatic scientific problems. Tasks are generated from formal objects (deduction tree, inductive rule hypothesis, causal graph) to guarantee verifiable answers, then rendered into multi-document scientific discourse via per-track domain-tuned genres. The construction lets us independently vary two difficulty axes: how hard it is to extract the key information needed for inference, and how hard the principled inference itself is. We test six models. Both axes hurt every model, and their effects compound. The rendering even hurts neurosymbolic pipelines, which hand inference to a verified solver. The two axes yield a per-model extraction-vs-inference profile: for instance, reasoning models like deepseek-r1 mostly surpass non-reasoning instruct models on the inference axis. To our knowledge, SciR is the first multi-paradigm scientific-reasoning benchmark with parametric control on both extraction and inference difficulty.


翻译:科学推理中反复出现三种典型推理形式:演绎、归纳和因果溯因。当前在科学场景中可靠评估大语言模型仍难以实现:基于人工标注的科学基准成本高昂且缺乏机制层面的真实基准,而合成逻辑推理基准又与真实科学文档存在差异。我们提出SciR基准,该基准将多范式推理与可控科学呈现相结合,以三个典型科学问题为核心。任务通过形式化对象(演绎树、归纳规则假设、因果图)生成,确保答案可验证,随后通过面向各领域的调优体裁呈现为多文档科学论述。该构建方法使我们能够独立调控两个难度维度:推理所需关键信息提取的难度,以及原则性推理本身的难度。我们测试了六个模型,发现两个维度均对模型性能产生负面影响,且影响具有叠加效应。即便将推理任务交由已验证求解器处理的神经符号管道也受到呈现方式的影响。这两个维度形成了每类模型的提取-推理能力画像:例如,deepseek-r1等推理模型在推理维度上普遍超越非推理型指令模型。据我们所知,SciR是首个对提取难度和推理难度实现参数化控制的多范式科学推理基准。

0
下载
关闭预览

相关内容

大语言模型的智能体化推理
专知会员服务
35+阅读 · 1月21日
评估大语言模型在科学发现中的作用
专知会员服务
19+阅读 · 2025年12月19日
面向大型语言模型推理的可信研究综述
专知会员服务
22+阅读 · 2025年9月6日
科学大语言模型综述:从数据基础到智能体前沿
专知会员服务
51+阅读 · 2025年9月1日
LLM4SR:关于大规模语言模型在科学研究中的应用综述
专知会员服务
42+阅读 · 2025年1月9日
面向表格数据的大模型推理综述
专知会员服务
67+阅读 · 2023年12月26日
【SCIR笔记】文档级事件抽取简述
深度学习自然语言处理
17+阅读 · 2020年7月30日
【工大SCIR笔记】多模态信息抽取简述
深度学习自然语言处理
19+阅读 · 2020年4月3日
【哈工大SCIR】多模态情感分析简述
深度学习自然语言处理
33+阅读 · 2019年12月14日
深度学习在CTR预估中的应用 | CTR深度模型大盘点
PaperWeekly
15+阅读 · 2018年4月11日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
10+阅读 · 6月15日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员