ChemPro：面向大型语言模型的渐进式化学基准测试 (ChemPro: A Progressive Chemistry Benchmark for Large Language Models) - 专知论文

会员服务 ·

0

基准 · 基准测试 · 语言模型 · 大语言模型 · 包含 ·

ChemPro: A Progressive Chemistry Benchmark for Large Language Models

翻译：ChemPro：面向大型语言模型的渐进式化学基准测试

Aaditya Baranwal,Shruti Vyas

We introduce ChemPro, a progressive benchmark with 4100 natural language question-answer pairs in Chemistry, across 4 coherent sections of difficulty designed to assess the proficiency of Large Language Models (LLMs) in a broad spectrum of general chemistry topics. We include Multiple Choice Questions and Numerical Questions spread across fine-grained information recall, long-horizon reasoning, multi-concept questions, problem-solving with nuanced articulation, and straightforward questions in a balanced ratio, effectively covering Bio-Chemistry, Inorganic-Chemistry, Organic-Chemistry and Physical-Chemistry. ChemPro is carefully designed analogous to a student's academic evaluation for basic to high-school chemistry. A gradual increase in the question difficulty rigorously tests the ability of LLMs to progress from solving basic problems to solving more sophisticated challenges. We evaluate 45+7 state-of-the-art LLMs, spanning both open-source and proprietary variants, and our analysis reveals that while LLMs perform well on basic chemistry questions, their accuracy declines with different types and levels of complexity. These findings highlight the critical limitations of LLMs in general scientific reasoning and understanding and point towards understudied dimensions of difficulty, emphasizing the need for more robust methodologies to improve LLMs.

翻译：我们提出了ChemPro，一个包含4100个自然语言问答对的渐进式化学基准测试，涵盖4个难度递进的连贯部分，旨在评估大型语言模型（LLMs）在广泛普通化学主题中的能力。该基准以均衡比例涵盖多项选择题和数值计算题，细粒度分布于信息记忆、长程推理、多概念综合、需精细表述的问题求解及基础性问题等维度，全面覆盖生物化学、无机化学、有机化学与物理化学领域。ChemPro参照学生从基础到高中化学的学业评估体系精心设计，通过问题难度的渐进式提升，系统检验LLMs从解决基础问题到应对复杂挑战的进阶能力。我们对45+7个开源与专有前沿LLMs进行了评估，分析表明：虽然LLMs在基础化学问题上表现良好，但其准确性随问题类型和复杂程度的增加而显著下降。这些发现揭示了LLMs在通用科学推理与理解方面的关键局限，指出了尚未被充分研究的难度维度，并强调需要更稳健的方法论来改进LLMs。

0

相关内容

评估大语言模型在科学发现中的作用

评估大语言模型在科学发现中的作用

专知会员服务

19+阅读 · 2025年12月19日

什么是后训练？大语言模型训练后优化方法综述，87页pdf

什么是后训练？大语言模型训练后优化方法综述，87页pdf

专知会员服务

54+阅读 · 2025年3月11日

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

专知会员服务

50+阅读 · 2024年6月30日

大模型如何用于科学发现？浙大等最新《科学大型语言模型：生物学与化学领域》综述

大模型如何用于科学发现？浙大等最新《科学大型语言模型：生物学与化学领域》综述

专知会员服务

50+阅读 · 2024年1月29日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

110+阅读 · 2023年12月19日

天大最新《大型语言模型评估》全面综述，111页pdf

天大最新《大型语言模型评估》全面综述，111页pdf

专知会员服务

88+阅读 · 2023年10月31日

《大型语言模型》最新全面概述

《大型语言模型》最新全面概述

专知会员服务

111+阅读 · 2023年7月14日

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

专知会员服务

88+阅读 · 2023年7月13日

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

专知会员服务

93+阅读 · 2023年6月1日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

专知

17+阅读 · 2018年11月15日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

基于概率计算的大规模MIMO检测方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于量子动力学RPMD的化学反应速率研究

国家自然科学基金

0+阅读 · 2015年12月31日

一类稳态Schödinger-Poisson-Slater方程标准化解的研究

国家自然科学基金

1+阅读 · 2015年12月31日

形貌和结构双向可控SERS基底的构筑及其对多环芳烃的高特异性高灵敏检测

国家自然科学基金

0+阅读 · 2015年12月31日

高通量测序的可计算建模与应用基础算法

国家自然科学基金

1+阅读 · 2015年12月31日

实验室模拟大气中羰基化合物与硫酸铵/胺液相反应形成SOA的研究

国家自然科学基金

0+阅读 · 2015年12月31日

大规模MIMO检测的理论性能分析和算法设计

国家自然科学基金

0+阅读 · 2015年12月31日

ZnO模型催化体系表面化学的STM研究

国家自然科学基金

0+阅读 · 2015年12月31日

功能化磁性纳米介质萃取新技术及其在痕量大环内酯类抗生素检测中的应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

M-B-O-X(M:碱金属或碱土金属；X：卤素）体系中非线性光学材料的探索与性能研究

国家自然科学基金

0+阅读 · 2014年12月31日

Benchmarking Large Language Models on Answering and Explaining Challenging Medical Questions

Arxiv

0+阅读 · 2月18日

LLMStructBench: Benchmarking Large Language Model Structured Data Extraction

Arxiv

0+阅读 · 2月16日

Benchmarking Retrieval-Augmented Generation for Chemistry

Arxiv

0+阅读 · 2月16日

HypoBench: Towards Systematic and Principled Benchmarking for Hypothesis Generation

Arxiv

0+阅读 · 2月10日

AICrypto: Evaluating Cryptography Capabilities of Large Language Models

Arxiv

0+阅读 · 2月3日

OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large Language Models

Arxiv

0+阅读 · 1月30日

RxnBench: A Multimodal Benchmark for Evaluating Large Language Models on Chemical Reaction Understanding from Scientific Literature

Arxiv

0+阅读 · 1月28日

Grounding Large Language Models in Reaction Knowledge Graphs for Synthesis Retrieval

Arxiv

0+阅读 · 1月22日

MolecularIQ: Characterizing Chemical Reasoning Capabilities Through Symbolic Verification on Molecular Graphs

Arxiv

0+阅读 · 1月21日

QuantEval: A Benchmark for Financial Quantitative Tasks in Large Language Models

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

大语言模型

相关VIP内容

评估大语言模型在科学发现中的作用

评估大语言模型在科学发现中的作用

专知会员服务

19+阅读 · 2025年12月19日

什么是后训练？大语言模型训练后优化方法综述，87页pdf

什么是后训练？大语言模型训练后优化方法综述，87页pdf

专知会员服务

54+阅读 · 2025年3月11日

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

专知会员服务

50+阅读 · 2024年6月30日

大模型如何用于科学发现？浙大等最新《科学大型语言模型：生物学与化学领域》综述

大模型如何用于科学发现？浙大等最新《科学大型语言模型：生物学与化学领域》综述

专知会员服务

50+阅读 · 2024年1月29日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

110+阅读 · 2023年12月19日

天大最新《大型语言模型评估》全面综述，111页pdf

天大最新《大型语言模型评估》全面综述，111页pdf

专知会员服务

88+阅读 · 2023年10月31日

《大型语言模型》最新全面概述

《大型语言模型》最新全面概述

专知会员服务

111+阅读 · 2023年7月14日

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

专知会员服务

88+阅读 · 2023年7月13日

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

专知会员服务

93+阅读 · 2023年6月1日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

专知

17+阅读 · 2018年11月15日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

Benchmarking Large Language Models on Answering and Explaining Challenging Medical Questions

Arxiv

0+阅读 · 2月18日

LLMStructBench: Benchmarking Large Language Model Structured Data Extraction

Arxiv

0+阅读 · 2月16日

Benchmarking Retrieval-Augmented Generation for Chemistry

Arxiv

0+阅读 · 2月16日

HypoBench: Towards Systematic and Principled Benchmarking for Hypothesis Generation

Arxiv

0+阅读 · 2月10日

AICrypto: Evaluating Cryptography Capabilities of Large Language Models

Arxiv

0+阅读 · 2月3日

OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large Language Models

Arxiv

0+阅读 · 1月30日

RxnBench: A Multimodal Benchmark for Evaluating Large Language Models on Chemical Reaction Understanding from Scientific Literature

Arxiv

0+阅读 · 1月28日

Grounding Large Language Models in Reaction Knowledge Graphs for Synthesis Retrieval

Arxiv

0+阅读 · 1月22日

MolecularIQ: Characterizing Chemical Reasoning Capabilities Through Symbolic Verification on Molecular Graphs

Arxiv

0+阅读 · 1月21日

QuantEval: A Benchmark for Financial Quantitative Tasks in Large Language Models

Arxiv

0+阅读 · 1月13日

相关基金

基于概率计算的大规模MIMO检测方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于量子动力学RPMD的化学反应速率研究

国家自然科学基金

0+阅读 · 2015年12月31日

一类稳态Schödinger-Poisson-Slater方程标准化解的研究

国家自然科学基金

1+阅读 · 2015年12月31日

形貌和结构双向可控SERS基底的构筑及其对多环芳烃的高特异性高灵敏检测

国家自然科学基金

0+阅读 · 2015年12月31日

高通量测序的可计算建模与应用基础算法

国家自然科学基金

1+阅读 · 2015年12月31日

实验室模拟大气中羰基化合物与硫酸铵/胺液相反应形成SOA的研究

国家自然科学基金

0+阅读 · 2015年12月31日

大规模MIMO检测的理论性能分析和算法设计

国家自然科学基金

0+阅读 · 2015年12月31日

ZnO模型催化体系表面化学的STM研究

国家自然科学基金

0+阅读 · 2015年12月31日

功能化磁性纳米介质萃取新技术及其在痕量大环内酯类抗生素检测中的应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

M-B-O-X(M:碱金属或碱土金属；X：卤素）体系中非线性光学材料的探索与性能研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员