ELAIPBench：专家级人工智能论文理解能力评测基准 (ELAIPBench: A Benchmark for Expert-Level Artificial Intelligence Paper Understanding) - 专知论文

会员服务 ·

0

论文 · 基准 · 准确率 · 大语言模型 · 评估指标 ·

ELAIPBench: A Benchmark for Expert-Level Artificial Intelligence Paper Understanding

翻译：ELAIPBench：专家级人工智能论文理解能力评测基准

Xinbang Dai,Huikang Hu,Yongrui Chen,Jiaqi Li,Rihui Jin,Yuyang Zhang,Xiaoguang Li,Lifeng Shang,Guilin Qi

from arxiv, 24 pages, 21 figures

While large language models (LLMs) excel at many domain-specific tasks, their ability to deeply comprehend and reason about full-length academic papers remains underexplored. Existing benchmarks often fall short of capturing such depth, either due to surface-level question design or unreliable evaluation metrics. To address this gap, we introduce ELAIPBench, a benchmark curated by domain experts to evaluate LLMs' comprehension of artificial intelligence (AI) research papers. Developed through an incentive-driven, adversarial annotation process, ELAIPBench features 403 multiple-choice questions from 137 papers. It spans three difficulty levels and emphasizes non-trivial reasoning rather than shallow retrieval. Our experiments show that the best-performing LLM achieves an accuracy of only 39.95%, far below human performance. Moreover, we observe that frontier LLMs equipped with a thinking mode or a retrieval-augmented generation (RAG) system fail to improve final results-even harming accuracy due to overthinking or noisy retrieval. These findings underscore the significant gap between current LLM capabilities and genuine comprehension of academic papers.

翻译：尽管大型语言模型（LLM）在许多特定领域任务中表现出色，但其对完整学术论文的深度理解与推理能力仍未得到充分探索。现有评测基准往往因问题设计流于表面或评估指标不可靠，难以捕捉这种深度理解能力。为填补这一空白，我们推出了ELAIPBench——一个由领域专家构建的评测基准，用于评估LLM对人工智能（AI）研究论文的理解能力。该基准通过激励驱动的对抗性标注流程开发，包含来自137篇论文的403道选择题，涵盖三个难度等级，并强调非浅层检索的实质性推理。实验表明，性能最佳的LLM准确率仅为39.95%，远低于人类水平。此外，我们发现配备思维模式或检索增强生成（RAG）系统的前沿LLM未能提升最终结果——甚至因过度思考或噪声检索而导致准确率下降。这些发现凸显了当前LLM能力与真正学术论文理解水平之间存在的显著差距。

0

相关内容

论文（Paper）是专知网站核心资料文档，包括全球顶级期刊、顶级会议论文，及全球顶尖高校博士硕士学位论文。重点关注中国计算机学会推荐的国际学术会议和期刊，CCF-A、B、C三类。通过人机协作方式，汇编、挖掘后呈现于专知网站。

智能体评判者（Agent-as-a-Judge）研究综述

智能体评判者（Agent-as-a-Judge）研究综述

专知会员服务

37+阅读 · 1月9日

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

专知会员服务

23+阅读 · 2025年10月22日

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

专知会员服务

48+阅读 · 2025年4月12日

【斯坦福博士论文】大语言模型的AI辅助评估

【斯坦福博士论文】大语言模型的AI辅助评估

专知会员服务

31+阅读 · 2025年3月30日

GPT文本如何检测？《检测AI生成文本：影响当前方法检测能力的因素》最新综述

GPT文本如何检测？《检测AI生成文本：影响当前方法检测能力的因素》最新综述

专知会员服务

24+阅读 · 2024年7月3日

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

专知会员服务

50+阅读 · 2024年6月30日

《美国防部对人工智能和 LLM 编写评估因素的信心与偏见》2024最新275页论文

《美国防部对人工智能和 LLM 编写评估因素的信心与偏见》2024最新275页论文

专知会员服务

63+阅读 · 2024年3月4日

通用人工智能6个层次！谷歌DeepMind提出《AGI的层次:在通往AGI的道路上的操作化进展》

通用人工智能6个层次！谷歌DeepMind提出《AGI的层次:在通往AGI的道路上的操作化进展》

专知会员服务

67+阅读 · 2023年11月9日

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

专知会员服务

88+阅读 · 2023年7月13日

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

专知会员服务

76+阅读 · 2023年4月26日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

OpenAI超级对话模型ChatGPT发布！智能回答堪比雅思口语满分案例

OpenAI超级对话模型ChatGPT发布！智能回答堪比雅思口语满分案例

新智元

29+阅读 · 2022年12月1日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

人工智能Paper精读班，视频讲解+代码实现

人工智能Paper精读班，视频讲解+代码实现

AINLP

17+阅读 · 2019年5月31日

百度提出ERNIE，多项中文NLP任务表现出色（已开源）

百度提出ERNIE，多项中文NLP任务表现出色（已开源）

AI100

33+阅读 · 2019年3月16日

腾讯AI Lab 8篇论文入选，从0到1解读语音交互能力 | InterSpeech 2018

腾讯AI Lab 8篇论文入选，从0到1解读语音交互能力 | InterSpeech 2018

AI科技评论

12+阅读 · 2018年9月7日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

Deepmind 新成果，让机器挑战更复杂阅读理解问题

Deepmind 新成果，让机器挑战更复杂阅读理解问题

AI掘金志

11+阅读 · 2018年1月3日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于人眼关注度与情感分析的电子商务智能推荐计算

国家自然科学基金

0+阅读 · 2014年12月31日

基于智能信息处理的Web服务可信性预测与评估技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

AICrypto: Evaluating Cryptography Capabilities of Large Language Models

Arxiv

0+阅读 · 2月3日

DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation

Arxiv

0+阅读 · 2月3日

ALPBench: A Benchmark for Attribution-level Long-term Personal Behavior Understanding

Arxiv

0+阅读 · 2月3日

ChipBench: A Next-Step Benchmark for Evaluating LLM Performance in AI-Aided Chip Design

Arxiv

0+阅读 · 2月1日

PLawBench: A Rubric-Based Benchmark for Evaluating LLMs in Real-World Legal Practice

Arxiv

0+阅读 · 1月28日

PLawBench: A Rubric-Based Benchmark for Evaluating LLMs in Real-World Legal Practice

Arxiv

0+阅读 · 1月23日

DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation

Arxiv

0+阅读 · 1月16日

JudgeAgent: Beyond Static Benchmarks for Knowledge-Driven and Dynamic LLM Evaluation

Arxiv

0+阅读 · 1月15日

SciIF: Benchmarking Scientific Instruction Following Towards Rigorous Scientific Intelligence

Arxiv

0+阅读 · 1月12日

IDRBench: Interactive Deep Research Benchmark

Arxiv

0+阅读 · 1月10日

VIP会员

文章信息

相关主题

大语言模型

相关VIP内容

智能体评判者（Agent-as-a-Judge）研究综述

智能体评判者（Agent-as-a-Judge）研究综述

专知会员服务

37+阅读 · 1月9日

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

专知会员服务

23+阅读 · 2025年10月22日

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

专知会员服务

48+阅读 · 2025年4月12日

【斯坦福博士论文】大语言模型的AI辅助评估

【斯坦福博士论文】大语言模型的AI辅助评估

专知会员服务

31+阅读 · 2025年3月30日

GPT文本如何检测？《检测AI生成文本：影响当前方法检测能力的因素》最新综述

GPT文本如何检测？《检测AI生成文本：影响当前方法检测能力的因素》最新综述

专知会员服务

24+阅读 · 2024年7月3日

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

专知会员服务

50+阅读 · 2024年6月30日

《美国防部对人工智能和 LLM 编写评估因素的信心与偏见》2024最新275页论文

《美国防部对人工智能和 LLM 编写评估因素的信心与偏见》2024最新275页论文

专知会员服务

63+阅读 · 2024年3月4日

通用人工智能6个层次！谷歌DeepMind提出《AGI的层次:在通往AGI的道路上的操作化进展》

通用人工智能6个层次！谷歌DeepMind提出《AGI的层次:在通往AGI的道路上的操作化进展》

专知会员服务

67+阅读 · 2023年11月9日

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

专知会员服务

88+阅读 · 2023年7月13日

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

专知会员服务

76+阅读 · 2023年4月26日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】基于自适应表征的高效视觉建模

《多域作战中融合网络、电子战与动能机动》

AI智能体时代大模型安全风险与攻防新挑战

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

OpenAI超级对话模型ChatGPT发布！智能回答堪比雅思口语满分案例

OpenAI超级对话模型ChatGPT发布！智能回答堪比雅思口语满分案例

新智元

29+阅读 · 2022年12月1日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

人工智能Paper精读班，视频讲解+代码实现

人工智能Paper精读班，视频讲解+代码实现

AINLP

17+阅读 · 2019年5月31日

百度提出ERNIE，多项中文NLP任务表现出色（已开源）

百度提出ERNIE，多项中文NLP任务表现出色（已开源）

AI100

33+阅读 · 2019年3月16日

腾讯AI Lab 8篇论文入选，从0到1解读语音交互能力 | InterSpeech 2018

腾讯AI Lab 8篇论文入选，从0到1解读语音交互能力 | InterSpeech 2018

AI科技评论

12+阅读 · 2018年9月7日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

Deepmind 新成果，让机器挑战更复杂阅读理解问题

Deepmind 新成果，让机器挑战更复杂阅读理解问题

AI掘金志

11+阅读 · 2018年1月3日

相关论文

AICrypto: Evaluating Cryptography Capabilities of Large Language Models

Arxiv

0+阅读 · 2月3日

DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation

Arxiv

0+阅读 · 2月3日

ALPBench: A Benchmark for Attribution-level Long-term Personal Behavior Understanding

Arxiv

0+阅读 · 2月3日

ChipBench: A Next-Step Benchmark for Evaluating LLM Performance in AI-Aided Chip Design

Arxiv

0+阅读 · 2月1日

PLawBench: A Rubric-Based Benchmark for Evaluating LLMs in Real-World Legal Practice

Arxiv

0+阅读 · 1月28日

PLawBench: A Rubric-Based Benchmark for Evaluating LLMs in Real-World Legal Practice

Arxiv

0+阅读 · 1月23日

DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation

Arxiv

0+阅读 · 1月16日

JudgeAgent: Beyond Static Benchmarks for Knowledge-Driven and Dynamic LLM Evaluation

Arxiv

0+阅读 · 1月15日

SciIF: Benchmarking Scientific Instruction Following Towards Rigorous Scientific Intelligence

Arxiv

0+阅读 · 1月12日

IDRBench: Interactive Deep Research Benchmark

Arxiv

0+阅读 · 1月10日

相关基金

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于人眼关注度与情感分析的电子商务智能推荐计算

国家自然科学基金

0+阅读 · 2014年12月31日

基于智能信息处理的Web服务可信性预测与评估技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员