BABE：生物学竞技场基准 (BABE: Biology Arena BEnchmark) - 专知论文

会员服务 ·

0

生物 · 基准 · 人工智能系统 · 系统 · 智能系统 ·

BABE: Biology Arena BEnchmark

翻译：BABE：生物学竞技场基准

Junting Zhou,Jin Chen,Linfeng Hao,Denghui Cao,Zheyu Wang,Qiguang Chen,Chaoyou Fu,Jiaze Chen,Yuchen Wu,Ge Zhang,Mingxuan Wang,Wenhao Huang,Tong Yang

The rapid evolution of large language models (LLMs) has expanded their capabilities from basic dialogue to advanced scientific reasoning. However, existing benchmarks in biology often fail to assess a critical skill required of researchers: the ability to integrate experimental results with contextual knowledge to derive meaningful conclusions. To address this gap, we introduce BABE(Biology Arena BEnchmark), a comprehensive benchmark designed to evaluate the experimental reasoning capabilities of biological AI systems. BABE is uniquely constructed from peer-reviewed research papers and real-world biological studies, ensuring that tasks reflect the complexity and interdisciplinary nature of actual scientific inquiry. BABE challenges models to perform causal reasoning and cross-scale inference. Our benchmark provides a robust framework for assessing how well AI systems can reason like practicing scientists, offering a more authentic measure of their potential to contribute to biological research.

翻译：大型语言模型（LLM）的快速发展已将其能力从基础对话扩展到高级科学推理。然而，现有的生物学基准往往未能评估研究人员所需的一项关键技能：即整合实验结果与背景知识以得出有意义结论的能力。为弥补这一不足，我们引入了BABE（生物学竞技场基准），这是一个旨在评估生物人工智能系统实验推理能力的综合性基准。BABE独特地构建于同行评议的研究论文和真实世界的生物学研究之上，确保任务反映实际科学探究的复杂性和跨学科本质。BABE挑战模型执行因果推理和跨尺度推断。我们的基准为评估人工智能系统在多大程度上能够像实践科学家一样推理提供了一个稳健的框架，从而为其在生物学研究中的潜在贡献提供了更真实的衡量标准。

0

相关内容

具有动能的生命体。

评估大语言模型在科学发现中的作用

评估大语言模型在科学发现中的作用

专知会员服务

19+阅读 · 2025年12月19日

大规模语言模型在生物信息学中的应用

大规模语言模型在生物信息学中的应用

专知会员服务

18+阅读 · 2025年1月16日

【AAAI2025】通过自适应多方面检索增强，利用大型语言模型进行知识图谱问答

【AAAI2025】通过自适应多方面检索增强，利用大型语言模型进行知识图谱问答

专知会员服务

31+阅读 · 2024年12月26日

大模型如何适配生物医学？最新《生物医学大型语言模型研究》综述

大模型如何适配生物医学？最新《生物医学大型语言模型研究》综述

专知会员服务

28+阅读 · 2024年9月11日

GPT文本如何检测？《检测AI生成文本：影响当前方法检测能力的因素》最新综述

GPT文本如何检测？《检测AI生成文本：影响当前方法检测能力的因素》最新综述

专知会员服务

24+阅读 · 2024年7月3日

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

专知会员服务

50+阅读 · 2024年6月30日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

GPT-4科学发现如何？微软230页长文《大型语言模型对科学发现的影响:使用GPT-4的初步研究》，涵盖5大科学领域，前景可期

GPT-4科学发现如何？微软230页长文《大型语言模型对科学发现的影响:使用GPT-4的初步研究》，涵盖5大科学领域，前景可期

专知会员服务

70+阅读 · 2023年11月15日

如何检测LLM内容？UCSB等最新首篇《LLM生成内容检测》综述

如何检测LLM内容？UCSB等最新首篇《LLM生成内容检测》综述

专知会员服务

49+阅读 · 2023年10月29日

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

专知会员服务

88+阅读 · 2023年7月13日

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

专知

20+阅读 · 2019年6月27日

一大批中文（BERT等）预训练模型等你认领！

一大批中文（BERT等）预训练模型等你认领！

PaperWeekly

15+阅读 · 2019年6月25日

Bert最新进展，继续在NLP各领域开花结果！

Bert最新进展，继续在NLP各领域开花结果！

机器学习算法与Python学习

20+阅读 · 2019年6月11日

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

AINLP

40+阅读 · 2019年6月9日

站在BERT肩膀上的NLP新秀们（PART I）

站在BERT肩膀上的NLP新秀们（PART I）

AINLP

30+阅读 · 2019年6月4日

深入理解BERT Transformer ，不仅仅是注意力机制

深入理解BERT Transformer ，不仅仅是注意力机制

大数据文摘

22+阅读 · 2019年3月19日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

使用 Bert 预训练模型文本分类（内附源码）

使用 Bert 预训练模型文本分类（内附源码）

数据库开发

102+阅读 · 2019年3月12日

从 Word Embedding 到 Bert：一起肢解 Bert！

从 Word Embedding 到 Bert：一起肢解 Bert！

人工智能头条

17+阅读 · 2018年12月11日

BERT相关论文、文章和代码资源汇总

BERT相关论文、文章和代码资源汇总

AINLP

19+阅读 · 2018年11月17日

基于非参数贝叶斯推断的RNA甲基化谱分解及关键致病酶基因的预测

国家自然科学基金

0+阅读 · 2015年12月31日

生物序列大数据集模体发现算法的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于多生物网络的蛋白质功能预测算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

高准度二代测序比对算法

国家自然科学基金

3+阅读 · 2015年12月31日

BAP31胞内抗体的构建及其影响肿瘤干细胞增殖与分化的机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

禽致病性大肠杆菌RyhB调控靶点及影响感染上皮细胞应答基因的筛选

国家自然科学基金

0+阅读 · 2015年12月31日

基于咬合力和食性的蝙蝠回声定位声波地理进化研究

国家自然科学基金

0+阅读 · 2015年12月31日

动态Gr？bner 基与GVW算法

国家自然科学基金

0+阅读 · 2014年12月31日

生物网络的可计算建模

国家自然科学基金

2+阅读 · 2014年12月31日

SemBench: A Benchmark for Semantic Query Processing Engines

Arxiv

0+阅读 · 3月16日

BioProAgent: Neuro-Symbolic Grounding for Constrained Scientific Planning

Arxiv

0+阅读 · 3月1日

SC-Arena: A Natural Language Benchmark for Single-Cell Reasoning with Knowledge-Augmented Evaluation

Arxiv

0+阅读 · 2月26日

A Benchmark for Deep Information Synthesis

Arxiv

0+阅读 · 2月24日

KGHaluBench: A Knowledge Graph-Based Hallucination Benchmark for Evaluating the Breadth and Depth of LLM Knowledge

Arxiv

0+阅读 · 2月23日

[Re] Benchmarking LLM Capabilities in Negotiation through Scoreable Games

Arxiv

0+阅读 · 2月20日

HypoBench: Towards Systematic and Principled Benchmarking for Hypothesis Generation

Arxiv

0+阅读 · 2月10日

GISA: A Benchmark for General Information-Seeking Assistant

Arxiv

0+阅读 · 2月9日

PBEBench: A Multi-Step Programming by Examples Reasoning Benchmark inspired by Historical Linguistics

Arxiv

0+阅读 · 2月7日

PersoBench: Benchmarking Personalized Response Generation in Large Language Models

Arxiv

0+阅读 · 2月4日

VIP会员

文章信息

相关主题

人工智能系统

最新内容

美国与以色列如何在攻击伊朗中使用人工智能

美国与以色列如何在攻击伊朗中使用人工智能

专知会员服务

2+阅读 · 今天16:20

《面向大语言模型引导规划、Bandit算法驱动探索与多智能体导航的分层决策问题研究》180页

《面向大语言模型引导规划、Bandit算法驱动探索与多智能体导航的分层决策问题研究》180页

专知会员服务

2+阅读 · 今天14:34

《自动化战略情报管控》

《自动化战略情报管控》

专知会员服务

1+阅读 · 今天14:31

《反无人机蜂群技术研究：基于小队策略构建大规模无人机防御》

《反无人机蜂群技术研究：基于小队策略构建大规模无人机防御》

专知会员服务

3+阅读 · 今天14:23

得失评估：审视对伊朗战争的轨迹（简报）

得失评估：审视对伊朗战争的轨迹（简报）

专知会员服务

2+阅读 · 今天14:19

【CMU博士论文】迈向可解释机器学习的理论基础

【CMU博士论文】迈向可解释机器学习的理论基础

专知会员服务

2+阅读 · 今天12:23

CVPR 2026 | HulluEdit：基于正交子空间编辑的多模态大语言模型幻觉缓解框架

CVPR 2026 | HulluEdit：基于正交子空间编辑的多模态大语言模型幻觉缓解框架

专知会员服务

2+阅读 · 今天12:21

无人机视觉语言导航：研究进展、挑战与技术路线图

无人机视觉语言导航：研究进展、挑战与技术路线图

专知会员服务

2+阅读 · 今天12:13

《基于强化学习的反无人机蜂群拦截优先级排序》

《基于强化学习的反无人机蜂群拦截优先级排序》

专知会员服务

8+阅读 · 今天8:20

乌克兰反无人机方案“天穹哨兵”解析：一款人工智能驱动的近程防空系统

乌克兰反无人机方案“天穹哨兵”解析：一款人工智能驱动的近程防空系统

专知会员服务

3+阅读 · 今天7:30

美军2026条令《指挥官装甲装备维护技能测试计划》

美军2026条令《指挥官装甲装备维护技能测试计划》

专知会员服务

6+阅读 · 今天7:28

《俄罗斯构建服务于人工智能驱动自主性的主权无人机生态系统》（2026报告）

《俄罗斯构建服务于人工智能驱动自主性的主权无人机生态系统》（2026报告）

专知会员服务

7+阅读 · 今天3:09

2026年俄罗斯新型喷气动力无人机Geran-5的技术规格

2026年俄罗斯新型喷气动力无人机Geran-5的技术规格

专知会员服务

4+阅读 · 今天2:50

基于数据优化的人机协同与机器人僚机

基于数据优化的人机协同与机器人僚机

专知会员服务

6+阅读 · 今天2:08

美太空军发布两份聚焦2040年规划的文件：《2040年未来作战环境》和《2040年目标部队》（附文件）

美太空军发布两份聚焦2040年规划的文件：《2040年未来作战环境》和《2040年目标部队》（附文件）

专知会员服务

14+阅读 · 今天1:51

相关VIP内容

评估大语言模型在科学发现中的作用

评估大语言模型在科学发现中的作用

专知会员服务

19+阅读 · 2025年12月19日

大规模语言模型在生物信息学中的应用

大规模语言模型在生物信息学中的应用

专知会员服务

18+阅读 · 2025年1月16日

【AAAI2025】通过自适应多方面检索增强，利用大型语言模型进行知识图谱问答

【AAAI2025】通过自适应多方面检索增强，利用大型语言模型进行知识图谱问答

专知会员服务

31+阅读 · 2024年12月26日

大模型如何适配生物医学？最新《生物医学大型语言模型研究》综述

大模型如何适配生物医学？最新《生物医学大型语言模型研究》综述

专知会员服务

28+阅读 · 2024年9月11日

GPT文本如何检测？《检测AI生成文本：影响当前方法检测能力的因素》最新综述

GPT文本如何检测？《检测AI生成文本：影响当前方法检测能力的因素》最新综述

专知会员服务

24+阅读 · 2024年7月3日

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

专知会员服务

50+阅读 · 2024年6月30日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

GPT-4科学发现如何？微软230页长文《大型语言模型对科学发现的影响:使用GPT-4的初步研究》，涵盖5大科学领域，前景可期

GPT-4科学发现如何？微软230页长文《大型语言模型对科学发现的影响:使用GPT-4的初步研究》，涵盖5大科学领域，前景可期

专知会员服务

70+阅读 · 2023年11月15日

如何检测LLM内容？UCSB等最新首篇《LLM生成内容检测》综述

如何检测LLM内容？UCSB等最新首篇《LLM生成内容检测》综述

专知会员服务

49+阅读 · 2023年10月29日

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

专知会员服务

88+阅读 · 2023年7月13日

热门VIP内容

开通专知VIP会员享更多权益服务

《面向大语言模型引导规划、Bandit算法驱动探索与多智能体导航的分层决策问题研究》180页

《反无人机蜂群技术研究：基于小队策略构建大规模无人机防御》

美国与以色列如何在攻击伊朗中使用人工智能

《自动化战略情报管控》

相关资讯

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

专知

20+阅读 · 2019年6月27日

一大批中文（BERT等）预训练模型等你认领！

一大批中文（BERT等）预训练模型等你认领！

PaperWeekly

15+阅读 · 2019年6月25日

Bert最新进展，继续在NLP各领域开花结果！

Bert最新进展，继续在NLP各领域开花结果！

机器学习算法与Python学习

20+阅读 · 2019年6月11日

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

AINLP

40+阅读 · 2019年6月9日

站在BERT肩膀上的NLP新秀们（PART I）

站在BERT肩膀上的NLP新秀们（PART I）

AINLP

30+阅读 · 2019年6月4日

深入理解BERT Transformer ，不仅仅是注意力机制

深入理解BERT Transformer ，不仅仅是注意力机制

大数据文摘

22+阅读 · 2019年3月19日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

使用 Bert 预训练模型文本分类（内附源码）

使用 Bert 预训练模型文本分类（内附源码）

数据库开发

102+阅读 · 2019年3月12日

从 Word Embedding 到 Bert：一起肢解 Bert！

从 Word Embedding 到 Bert：一起肢解 Bert！

人工智能头条

17+阅读 · 2018年12月11日

BERT相关论文、文章和代码资源汇总

BERT相关论文、文章和代码资源汇总

AINLP

19+阅读 · 2018年11月17日

相关论文

SemBench: A Benchmark for Semantic Query Processing Engines

Arxiv

0+阅读 · 3月16日

BioProAgent: Neuro-Symbolic Grounding for Constrained Scientific Planning

Arxiv

0+阅读 · 3月1日

SC-Arena: A Natural Language Benchmark for Single-Cell Reasoning with Knowledge-Augmented Evaluation

Arxiv

0+阅读 · 2月26日

A Benchmark for Deep Information Synthesis

Arxiv

0+阅读 · 2月24日

KGHaluBench: A Knowledge Graph-Based Hallucination Benchmark for Evaluating the Breadth and Depth of LLM Knowledge

Arxiv

0+阅读 · 2月23日

[Re] Benchmarking LLM Capabilities in Negotiation through Scoreable Games

Arxiv

0+阅读 · 2月20日

HypoBench: Towards Systematic and Principled Benchmarking for Hypothesis Generation

Arxiv

0+阅读 · 2月10日

GISA: A Benchmark for General Information-Seeking Assistant

Arxiv

0+阅读 · 2月9日

PBEBench: A Multi-Step Programming by Examples Reasoning Benchmark inspired by Historical Linguistics

Arxiv

0+阅读 · 2月7日

PersoBench: Benchmarking Personalized Response Generation in Large Language Models

Arxiv

0+阅读 · 2月4日

相关基金

基于非参数贝叶斯推断的RNA甲基化谱分解及关键致病酶基因的预测

国家自然科学基金

0+阅读 · 2015年12月31日

生物序列大数据集模体发现算法的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于多生物网络的蛋白质功能预测算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

高准度二代测序比对算法

国家自然科学基金

3+阅读 · 2015年12月31日

BAP31胞内抗体的构建及其影响肿瘤干细胞增殖与分化的机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

禽致病性大肠杆菌RyhB调控靶点及影响感染上皮细胞应答基因的筛选

国家自然科学基金

0+阅读 · 2015年12月31日

基于咬合力和食性的蝙蝠回声定位声波地理进化研究

国家自然科学基金

0+阅读 · 2015年12月31日

动态Gr？bner 基与GVW算法

国家自然科学基金

0+阅读 · 2014年12月31日

生物网络的可计算建模

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员