Large Language Models (LLMs) perform well on many reasoning benchmarks, yet existing evaluations rarely assess their ability to distinguish between meaningful semantic relations and genuine unrelatedness. We introduce CORE (Comprehensive Ontological Relation Evaluation), a dataset of 225K multiple-choice questions spanning 74 disciplines, together with a general-domain open-source benchmark of 203 rigorously validated questions (Cohen's Kappa = 1.0) covering 24 semantic relation types with equal representation of unrelated pairs. A human baseline from 1,000+ participants achieves 92.6% accuracy (95.1% on unrelated pairs). In contrast, 29 state-of-the-art LLMs achieve 48.25-70.9% overall accuracy, with near-ceiling performance on related pairs (86.5-100%) but severe degradation on unrelated pairs (0-41.35%), despite assigning similar confidence (92-94%). Expected Calibration Error increases 2-4x on unrelated pairs, and a mean semantic collapse rate of 37.6% indicates systematic generation of spurious relations. On the CORE 225K MCQs dataset, accuracy further drops to approximately 2%, highlighting substantial challenges in domain-specific semantic reasoning. We identify unrelatedness reasoning as a critical, under-evaluated frontier for LLM evaluation and safety.


翻译:大语言模型(LLMs)在众多推理基准测试中表现优异,然而现有评估方法很少考察其区分有意义语义关系与真正无关关系的能力。本文提出CORE(综合性本体关系评估)数据集,包含涵盖74个学科的22.5万道多项选择题,同时构建了一个通用领域的开源基准测试,包含203个经过严格验证的问题(科恩卡帕系数=1.0),覆盖24种语义关系类型且无关关系对占比均衡。基于1000余名参与者建立的人类基线准确率达到92.6%(无关关系对准确率95.1%)。相比之下,29个前沿大语言模型的总体准确率仅为48.25-70.9%,虽然在相关关系对上表现接近天花板水平(86.5-100%),但在无关关系对上出现严重性能退化(0-41.35%),尽管其置信度评分相近(92-94%)。无关关系对的预期校准误差增长2-4倍,平均语义坍缩率达37.6%,表明模型系统性地生成虚假关系。在CORE 22.5万道多选题数据集上,准确率进一步下降至约2%,凸显了领域特定语义推理面临的重大挑战。本研究指出无关关系推理是大语言模型评估与安全领域一个关键且尚未充分评估的前沿方向。

0
下载
关闭预览

相关内容

评估大语言模型在科学发现中的作用
专知会员服务
19+阅读 · 2025年12月19日
大语言模型智能体的评估与基准:综述
专知会员服务
46+阅读 · 2025年7月31日
《多模态大语言模型评估综述》
专知会员服务
39+阅读 · 2024年8月29日
「大型语言模型评测」综述
专知会员服务
70+阅读 · 2024年3月30日
天大最新《大型语言模型评估》全面综述,111页pdf
专知会员服务
88+阅读 · 2023年10月31日
本体:一文读懂领域本体构建
AINLP
40+阅读 · 2019年2月27日
【大数据】大数据参考架构和关键技术(综合)
产业智能官
14+阅读 · 2018年11月22日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员