FrontierScience: Evaluating AI's Ability to Perform Expert-Level Scientific Tasks - 专知论文

会员服务 ·

0

基准 · 轨道 · 博士 · 包含 · 生物 ·

FrontierScience: Evaluating AI's Ability to Perform Expert-Level Scientific Tasks

翻译：前沿科学：评估人工智能执行专家级科学任务的能力

Miles Wang,Robi Lin,Kat Hu,Joy Jiao,Neil Chowdhury,Ethan Chang,Tejal Patwardhan

We introduce FrontierScience, a benchmark evaluating expert-level scientific reasoning in frontier language models. Recent model progress has nearly saturated existing science benchmarks, which often rely on multiple-choice knowledge questions or already published information. FrontierScience addresses this gap through two complementary tracks: (1) Olympiad, consisting of international olympiad problems at the level of IPhO, IChO, and IBO, and (2) Research, consisting of PhD-level, open-ended problems representative of sub-tasks in scientific research. FrontierScience contains several hundred questions (including 160 in the open-sourced gold set) covering subfields across physics, chemistry, and biology, from quantum electrodynamics to synthetic organic chemistry. All Olympiad problems are originally produced by international Olympiad medalists and national team coaches to ensure standards of difficulty, originality, and factuality. All Research problems are research sub-tasks written and verified by PhD scientists (doctoral candidates, postdoctoral researchers, or professors). For Research, we introduce a granular rubric-based evaluation framework to assess model capabilities throughout the process of solving a research task, rather than judging only a standalone final answer.

翻译：我们提出了前沿科学基准，用于评估前沿语言模型在专家级科学推理方面的能力。当前模型的发展已使现有科学基准近乎饱和，这些基准通常依赖于多项选择知识题或已发表信息。前沿科学基准通过两个互补的轨道弥补这一不足：(1) 奥林匹克轨道，包含达到国际物理奥林匹克、化学奥林匹克和生物奥林匹克水平的国际奥赛题目；(2) 研究轨道，包含代表科学研究中子任务的博士级开放式问题。该基准包含数百道题目（其中160道属于开源黄金集），涵盖从量子电动力学到合成有机化学等物理学、化学和生物学的多个子领域。所有奥林匹克题目均由国际奥赛奖牌得主及国家队教练原创命题，以确保其难度、原创性与事实性标准。所有研究题目均由博士科学家（博士候选人、博士后研究员或教授）撰写并验证。针对研究轨道，我们引入了一个基于细粒度量规的评估框架，以评估模型在整个研究任务解决过程中的能力，而非仅评判独立的最终答案。

0

相关内容

前沿人工智能趋势报告（Frontier AI Trends Report）

前沿人工智能趋势报告（Frontier AI Trends Report）

专知会员服务

38+阅读 · 2025年12月20日

评估大语言模型在科学发现中的作用

评估大语言模型在科学发现中的作用

专知会员服务

19+阅读 · 2025年12月19日

2025年中国AI for Science行业概览：创新驱动：AI如何助力科学创新的无限可能

2025年中国AI for Science行业概览：创新驱动：AI如何助力科学创新的无限可能

专知会员服务

36+阅读 · 2025年5月6日

《面向科学发现的智能体人工智能：进展、挑战与未来方向综述》

《面向科学发现的智能体人工智能：进展、挑战与未来方向综述》

专知会员服务

60+阅读 · 2025年3月14日

【AI4Science】利用大型语言模型变革科学：关于人工智能辅助科学发现、实验、内容生成与评估的调研

【AI4Science】利用大型语言模型变革科学：关于人工智能辅助科学发现、实验、内容生成与评估的调研

专知会员服务

33+阅读 · 2025年2月10日

浅谈人工智能的趋势和展望

浅谈人工智能的趋势和展望

专知会员服务

46+阅读 · 2024年5月11日

人工智能与数学前沿综述：如何借助 AI 发现数学规律？

人工智能与数学前沿综述：如何借助 AI 发现数学规律？

专知会员服务

52+阅读 · 2024年1月6日

ChatGPT背后“推理”如何做？浙大等最新《基于语言模型提示的推理》综述，阐述大模型提示推理机制与方法体系

ChatGPT背后“推理”如何做？浙大等最新《基于语言模型提示的推理》综述，阐述大模型提示推理机制与方法体系

专知会员服务

112+阅读 · 2023年5月6日

paper速读：人工智能中的量子数学，Quantum Mathematics in Artificial Intelligence

paper速读：人工智能中的量子数学，Quantum Mathematics in Artificial Intelligence

专知会员服务

36+阅读 · 2022年3月18日

重磅！2021年智源「人工智能」前沿报告（AI Frontiers）发布，236页pdf

重磅！2021年智源「人工智能」前沿报告（AI Frontiers）发布，236页pdf

专知会员服务

156+阅读 · 2022年1月1日

万字长文解读：从Transformer到ChatGPT，通用人工智能曙光初现

万字长文解读：从Transformer到ChatGPT，通用人工智能曙光初现

CSDN

16+阅读 · 2023年4月12日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

【2023新书】AI4Science，人工智能促进科学发现，134页pdf

【2023新书】AI4Science，人工智能促进科学发现，134页pdf

专知

61+阅读 · 2023年4月5日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

纵览知识图谱在AI领域的有效应用，2019知识图谱前沿技术论坛即将开幕

纵览知识图谱在AI领域的有效应用，2019知识图谱前沿技术论坛即将开幕

机器之心

15+阅读 · 2019年10月11日

类脑计算的前沿论文，看我们推荐的这7篇

类脑计算的前沿论文，看我们推荐的这7篇

人工智能前沿讲习班

21+阅读 · 2019年1月7日

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

中国人工智能学会

12+阅读 · 2018年11月15日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

教育部发布重磅AI计划，将建设100个“AI+”特色专业

教育部发布重磅AI计划，将建设100个“AI+”特色专业

AI100

18+阅读 · 2018年4月9日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

改进智能优化策略多机动目标跟踪方法研究

国家自然科学基金

18+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

面向“海上丝绸之路”的南海航线安全评价智能体模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

量子计量学前沿研究

国家自然科学基金

2+阅读 · 2015年12月31日

数据分析算法的融合与人才培养

国家自然科学基金

7+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

能源效率测度和资源优化配置的非参数前沿面建模方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

集核酸纯化、多病原体LAMP反应及在线检测为一体的床旁检测芯片研制

国家自然科学基金

0+阅读 · 2014年12月31日

中美科学基金资助与知识生产比较研究

国家自然科学基金

1+阅读 · 2014年12月31日

AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents

Arxiv

0+阅读 · 2月16日

The Statistical Fairness-Accuracy Frontier

Arxiv

0+阅读 · 2月16日

AI Arms and Influence: Frontier Models Exhibit Sophisticated Reasoning in Simulated Nuclear Crises

Arxiv

2+阅读 · 2月16日

Benchmarking AI Performance on End-to-End Data Science Projects

Arxiv

0+阅读 · 2月15日

Frontier AI Auditing: Toward Rigorous Third-Party Assessment of Safety and Security Practices at Leading AI Companies

Arxiv

0+阅读 · 2月7日

Towards Scientific Intelligence: A Survey of LLM-based Scientific Agents

Arxiv

0+阅读 · 2月2日

Frontier AI Auditing: Toward Rigorous Third-Party Assessment of Safety and Security Practices at Leading AI Companies

Arxiv

0+阅读 · 1月27日

Frontier AI Auditing: Toward Rigorous Third-Party Assessment of Safety and Security Practices at Leading AI Companies

Arxiv

0+阅读 · 1月22日

Benchmarking AI scientists for omics data driven biological discovery

Arxiv

0+阅读 · 1月18日

Frontier AI Auditing: Toward Rigorous Third-Party Assessment of Safety and Security Practices at Leading AI Companies

Arxiv

0+阅读 · 1月16日

VIP会员

文章信息

相关主题

最新内容

《多域作战面临复杂现实》

《多域作战面临复杂现实》

专知会员服务

0+阅读 · 9分钟前

《印度的多域作战：条令与能力发展》报告

《印度的多域作战：条令与能力发展》报告

专知会员服务

0+阅读 · 20分钟前

《是“修复情报”还是修复部队？阿富汗反叛乱行动中美军情报调整》400页

《是“修复情报”还是修复部队？阿富汗反叛乱行动中美军情报调整》400页

专知会员服务

0+阅读 · 26分钟前

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

专知会员服务

0+阅读 · 今天3:25

（中文版）美空军部发布《空军部数据战略》与《人工智能战略》两份战略：旨在加速建立军事优势

（中文版）美空军部发布《空军部数据战略》与《人工智能战略》两份战略：旨在加速建立军事优势

专知会员服务

5+阅读 · 今天2:55

【斯坦福博士论文】语言模型的机械可解释性与控制

【斯坦福博士论文】语言模型的机械可解释性与控制

专知会员服务

2+阅读 · 4月23日

大语言模型智能体长期记忆安全性综述：迈向记忆主权

大语言模型智能体长期记忆安全性综述：迈向记忆主权

专知会员服务

1+阅读 · 4月23日

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

专知会员服务

4+阅读 · 4月23日

人工智能赋能无人机：俄乌战争（万字长文）

人工智能赋能无人机：俄乌战争（万字长文）

专知会员服务

6+阅读 · 4月23日

国外海军作战管理系统与作战训练系统

国外海军作战管理系统与作战训练系统

专知会员服务

3+阅读 · 4月23日

美军条令《海军陆战队规划流程（2026版）》

美军条令《海军陆战队规划流程（2026版）》

专知会员服务

10+阅读 · 4月23日

《压缩式分布式交互仿真标准》120页

《压缩式分布式交互仿真标准》120页

专知会员服务

4+阅读 · 4月23日

《电子战数据交换模型研究报告》

《电子战数据交换模型研究报告》

专知会员服务

6+阅读 · 4月23日

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

专知会员服务

4+阅读 · 4月23日

《基于Transformer的异常舰船导航识别与跟踪》80页

《基于Transformer的异常舰船导航识别与跟踪》80页

专知会员服务

8+阅读 · 4月23日

相关VIP内容

前沿人工智能趋势报告（Frontier AI Trends Report）

前沿人工智能趋势报告（Frontier AI Trends Report）

专知会员服务

38+阅读 · 2025年12月20日

评估大语言模型在科学发现中的作用

评估大语言模型在科学发现中的作用

专知会员服务

19+阅读 · 2025年12月19日

2025年中国AI for Science行业概览：创新驱动：AI如何助力科学创新的无限可能

2025年中国AI for Science行业概览：创新驱动：AI如何助力科学创新的无限可能

专知会员服务

36+阅读 · 2025年5月6日

《面向科学发现的智能体人工智能：进展、挑战与未来方向综述》

《面向科学发现的智能体人工智能：进展、挑战与未来方向综述》

专知会员服务

60+阅读 · 2025年3月14日

【AI4Science】利用大型语言模型变革科学：关于人工智能辅助科学发现、实验、内容生成与评估的调研

【AI4Science】利用大型语言模型变革科学：关于人工智能辅助科学发现、实验、内容生成与评估的调研

专知会员服务

33+阅读 · 2025年2月10日

浅谈人工智能的趋势和展望

浅谈人工智能的趋势和展望

专知会员服务

46+阅读 · 2024年5月11日

人工智能与数学前沿综述：如何借助 AI 发现数学规律？

人工智能与数学前沿综述：如何借助 AI 发现数学规律？

专知会员服务

52+阅读 · 2024年1月6日

ChatGPT背后“推理”如何做？浙大等最新《基于语言模型提示的推理》综述，阐述大模型提示推理机制与方法体系

ChatGPT背后“推理”如何做？浙大等最新《基于语言模型提示的推理》综述，阐述大模型提示推理机制与方法体系

专知会员服务

112+阅读 · 2023年5月6日

paper速读：人工智能中的量子数学，Quantum Mathematics in Artificial Intelligence

paper速读：人工智能中的量子数学，Quantum Mathematics in Artificial Intelligence

专知会员服务

36+阅读 · 2022年3月18日

重磅！2021年智源「人工智能」前沿报告（AI Frontiers）发布，236页pdf

重磅！2021年智源「人工智能」前沿报告（AI Frontiers）发布，236页pdf

专知会员服务

156+阅读 · 2022年1月1日

热门VIP内容

开通专知VIP会员享更多权益服务

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

【斯坦福博士论文】语言模型的机械可解释性与控制

《是“修复情报”还是修复部队？阿富汗反叛乱行动中美军情报调整》400页

（中文版）美空军部发布《空军部数据战略》与《人工智能战略》两份战略：旨在加速建立军事优势

相关资讯

万字长文解读：从Transformer到ChatGPT，通用人工智能曙光初现

万字长文解读：从Transformer到ChatGPT，通用人工智能曙光初现

CSDN

16+阅读 · 2023年4月12日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

【2023新书】AI4Science，人工智能促进科学发现，134页pdf

【2023新书】AI4Science，人工智能促进科学发现，134页pdf

专知

61+阅读 · 2023年4月5日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

纵览知识图谱在AI领域的有效应用，2019知识图谱前沿技术论坛即将开幕

纵览知识图谱在AI领域的有效应用，2019知识图谱前沿技术论坛即将开幕

机器之心

15+阅读 · 2019年10月11日

类脑计算的前沿论文，看我们推荐的这7篇

类脑计算的前沿论文，看我们推荐的这7篇

人工智能前沿讲习班

21+阅读 · 2019年1月7日

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

中国人工智能学会

12+阅读 · 2018年11月15日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

教育部发布重磅AI计划，将建设100个“AI+”特色专业

教育部发布重磅AI计划，将建设100个“AI+”特色专业

AI100

18+阅读 · 2018年4月9日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

相关论文

AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents

Arxiv

0+阅读 · 2月16日

The Statistical Fairness-Accuracy Frontier

Arxiv

0+阅读 · 2月16日

AI Arms and Influence: Frontier Models Exhibit Sophisticated Reasoning in Simulated Nuclear Crises

Arxiv

2+阅读 · 2月16日

Benchmarking AI Performance on End-to-End Data Science Projects

Arxiv

0+阅读 · 2月15日

Frontier AI Auditing: Toward Rigorous Third-Party Assessment of Safety and Security Practices at Leading AI Companies

Arxiv

0+阅读 · 2月7日

Towards Scientific Intelligence: A Survey of LLM-based Scientific Agents

Arxiv

0+阅读 · 2月2日

Frontier AI Auditing: Toward Rigorous Third-Party Assessment of Safety and Security Practices at Leading AI Companies

Arxiv

0+阅读 · 1月27日

Frontier AI Auditing: Toward Rigorous Third-Party Assessment of Safety and Security Practices at Leading AI Companies

Arxiv

0+阅读 · 1月22日

Benchmarking AI scientists for omics data driven biological discovery

Arxiv

0+阅读 · 1月18日

Frontier AI Auditing: Toward Rigorous Third-Party Assessment of Safety and Security Practices at Leading AI Companies

Arxiv

0+阅读 · 1月16日

相关基金

改进智能优化策略多机动目标跟踪方法研究

国家自然科学基金

18+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

面向“海上丝绸之路”的南海航线安全评价智能体模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

量子计量学前沿研究

国家自然科学基金

2+阅读 · 2015年12月31日

数据分析算法的融合与人才培养

国家自然科学基金

7+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

能源效率测度和资源优化配置的非参数前沿面建模方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

集核酸纯化、多病原体LAMP反应及在线检测为一体的床旁检测芯片研制

国家自然科学基金

0+阅读 · 2014年12月31日

中美科学基金资助与知识生产比较研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员