Humanity's Last Exam (HLE) has become a widely used benchmark for evaluating frontier large language models on challenging, multi-domain questions. However, community-led analyses have raised concerns that HLE contains a non-trivial number of noisy items, which can bias evaluation results and distort cross-model comparisons. To address this challenge, we introduce HLE-Verified, a verified and revised version of HLE with a transparent verification protocol and fine-grained error taxonomy. Our construction follows a two-stage validation-and-repair workflow resulting in a certified benchmark. In Stage I, each item undergoes binary validation of the problem and final answer through domain-expert review and model-based cross-checks, yielding 641 verified items. In Stage II, flawed but fixable items are revised under strict constraints preserving the original evaluation intent, through dual independent expert repairs, model-assisted auditing, and final adjudication, resulting in 1,170 revised-and-certified items. The remaining 689 items are released as a documented uncertain set with explicit uncertainty sources and expertise tags for future refinement. We evaluate seven state-of-the-art language models on HLE and HLE-Verified, observing an average absolute accuracy gain of 7--10 percentage points on HLE-Verified. The improvement is particularly pronounced on items where the original problem statement and/or reference answer is erroneous, with gains of 30--40 percentage points. Our analyses further reveal a strong association between model confidence and the presence of errors in the problem statement or reference answer, supporting the effectiveness of our revisions. Overall, HLE-Verified improves HLE-style evaluations by reducing annotation noise and enabling more faithful measurement of model capabilities. Data is available at: https://github.com/SKYLENAGE-AI/HLE-Verified


翻译:人类终极考试(HLE)已成为评估前沿大语言模型在跨领域复杂问题上性能的广泛使用基准。然而,社区主导的分析指出HLE包含相当数量的噪声题目,可能扭曲评估结果并影响模型间比较。为应对此挑战,我们提出HLE-Verified——一个经过验证与修订的HLE版本,具备透明的验证协议和细粒度错误分类体系。我们采用两阶段“验证-修复”工作流程构建得到认证基准:第一阶段通过领域专家评审与模型交叉检验对每道题目的问题陈述和最终答案进行二元验证,得到641道已验证题目;第二阶段在严格保持原始评估意图的约束下,通过双独立专家修复、模型辅助审计和最终裁定,对可修复的缺陷题目进行修订,得到1,170道修订认证题目。其余689道题目作为标注不确定集发布,明确标注不确定性来源与专业领域标签以供后续完善。我们在HLE和HLE-Verified上评估了七个前沿语言模型,发现在HLE-Verified上平均绝对准确率提升7-10个百分点。这种提升在原始问题陈述和/或参考答案存在错误的题目上尤为显著,达到30-40个百分点的增益。进一步分析表明,模型置信度与问题陈述或参考答案中的错误存在强相关性,印证了我们修订工作的有效性。总体而言,HLE-Verified通过降低标注噪声,为HLE式评估提供了更可靠的模型能力测量基准。数据发布于:https://github.com/SKYLENAGE-AI/HLE-Verified

0
下载
关闭预览

相关内容

智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
什么是后训练?大语言模型训练后优化方法综述,87页pdf
【Facebook】人工智能基准(Benchmarking)测试再思考,55页ppt
专知会员服务
31+阅读 · 2020年12月20日
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员