Large Language Models (LLMs) are increasingly entering specialized, safety-critical engineering workflows governed by strict quantitative standards and immutable physical laws, making rigorous evaluation of their reasoning capabilities imperative. However, existing benchmarks such as MMLU, MATH, and HumanEval assess isolated cognitive skills, failing to capture the physically grounded reasoning central to engineering, where scientific principles, quantitative modeling, and practical constraints must converge. To enable verifiable process supervision in engineering, we introduce EngTrace, a symbolic benchmark built on 90 parameterized templates, each generating unique, contamination-resistant problem instances, spanning three major engineering branches, nine core domains, and 20 distinct areas, yielding 1,350 test cases that stress-test generalization across diverse physical scenarios. Moving beyond outcome matching, we introduce a verifiable two-stage evaluation framework that uses a tiered protocol to validate intermediate reasoning traces alongside final answers through automated procedural checks and a heterogeneous AI Tribunal. Our evaluation of 27 leading LLMs reveals a distinct trade-off between numeric precision and trace fidelity, identifying a complexity cliff where abstract mathematical pre-training fails to translate into the integrative reasoning required for advanced engineering tasks.


翻译:大语言模型(LLMs)正日益进入受严格量化标准和不可违背物理定律约束的专业安全关键工程工作流程,对其推理能力进行严谨评估势在必行。然而,现有基准如MMLU、MATH和HumanEval仅评估孤立的认知技能,未能捕捉工程领域核心的物理基础推理——其中科学原理、定量建模和实际约束必须相互融合。为在工程中实现可验证的过程监督,我们提出EngTrace——一个基于90个参数化模板构建的符号基准,每个模板可生成独特、抗污染的问题实例,涵盖三大工程分支、九个核心领域和20个不同方向,最终产生1,350个测试用例,用于压力测试模型在多样化物理场景中的泛化能力。超越传统的结果匹配方法,我们引入可验证的两阶段评估框架,通过分层协议验证中间推理轨迹与最终答案,并采用自动化过程检查与异构AI审裁组相结合的方式。对27个前沿LLM的评估揭示了数值精度与轨迹保真度之间的显著权衡,并识别出一道"复杂性悬崖"——即抽象的数学预训练无法转化为高级工程任务所需的综合推理能力。

0
下载
关闭预览

相关内容

评估大语言模型在科学发现中的作用
专知会员服务
19+阅读 · 2025年12月19日
不可错过!加州理工最新《大模型推理》课程
专知会员服务
73+阅读 · 2024年4月15日
【AAAI2024】大型语言模型是神经符号推理器
专知会员服务
38+阅读 · 2024年1月18日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
最新内容
定向能反无人机系统最新发展动态
专知会员服务
0+阅读 · 18分钟前
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
0+阅读 · 35分钟前
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员