BioProBench: Comprehensive Dataset and Benchmark in Biological Protocol Understanding and Reasoning - 专知论文

会员服务 ·

0

生物 · 基准 · 基准测试 · 语料 · 语料库 ·

BioProBench: Comprehensive Dataset and Benchmark in Biological Protocol Understanding and Reasoning

翻译：BioProBench：生物实验方案理解与推理的综合数据集与基准测试

Yuyang Liu,Liuzhenghao Lv,Xiancheng Zhang,Jingya Wang Li Yuan,Yonghong Tian

The realization of autonomous scientific experimentation is currently limited by LLMs' struggle to grasp the strict procedural logic and accuracy required by biological protocols. To address this fundamental challenge, we present \textbf{BioProBench}, a comprehensive resource for procedural reasoning in biology. BioProBench is grounded in \textbf{BioProCorpus}, a foundational collection of 27,000 human-written protocols. From this corpus, we systematically constructed a dataset of over 550,000 task instances, offering both a large-scale training resource and a rigorous benchmark with novel metrics. Evaluating 10 mainstream LLMs, we find that while general comprehension is high, performance drops significantly on tasks demanding deep reasoning, quantitative precision, and safety awareness. To demonstrate the value of BioProCorpus in mitigating these issues, we developed \textbf{ProAgent}, grounded in our corpus, ProAgent substantially advances the state-of-the-art. BioProBench provides a rigorous diagnostic benchmark and a foundational resource for developing the next generation of reliable scientific AI. Code and data are available at: https://github.com/YuyangSunshine/bioprotocolbench and https://huggingface.co/datasets/BioProBench/BioProBench.

翻译：实现自主科学实验目前受限于大型语言模型难以掌握生物实验方案所要求的严格程序逻辑与精确性。为应对这一根本性挑战，我们提出了\textbf{BioProBench}——一个面向生物学领域程序化推理的综合资源平台。BioProBench基于\textbf{BioProCorpus}构建，该基础语料库收录了27,000份人工撰写的实验方案。基于此语料库，我们系统构建了包含超过55万个任务实例的数据集，既提供了大规模训练资源，也建立了包含新型评估指标的严格基准测试。通过对10个主流大型语言模型的评估，我们发现虽然模型在通用理解任务上表现良好，但在需要深度推理、定量精确性和安全意识的复杂任务上性能显著下降。为展示BioProCorpus在解决这些问题方面的价值，我们基于该语料库开发了\textbf{ProAgent}模型，该模型显著推进了该领域的技术前沿。BioProBench为开发下一代可靠的科学人工智能提供了严谨的诊断基准和基础资源。代码与数据公开于：https://github.com/YuyangSunshine/bioprotocolbench 及 https://huggingface.co/datasets/BioProBench/BioProBench。

0

相关内容

具有动能的生命体。

生物信息学中的生成式人工智能：模型、应用与方法学进展的系统性综述

生物信息学中的生成式人工智能：模型、应用与方法学进展的系统性综述

专知会员服务

17+阅读 · 2025年11月10日

一文全面了解证据深度学习 | 中科院《证据深度学习及其应用》综述

一文全面了解证据深度学习 | 中科院《证据深度学习及其应用》综述

专知会员服务

36+阅读 · 2024年9月17日

iFeatureOmega: 一个对生物大分子序列、结构和化学小分子进行特征提取、分析和可视化的软件平台

iFeatureOmega: 一个对生物大分子序列、结构和化学小分子进行特征提取、分析和可视化的软件平台

专知会员服务

18+阅读 · 2022年7月18日

南大清华等《深度学习蛋白质设计》综述论文，涵盖16页pdf153篇文献阐述DL在蛋白质结构与序列设计的方法

南大清华等《深度学习蛋白质设计》综述论文，涵盖16页pdf153篇文献阐述DL在蛋白质结构与序列设计的方法

专知会员服务

22+阅读 · 2022年6月1日

清华孙茂松等自然·通讯杂志发表生物医学知识计算研究《深度学习系统桥接分子结构和生物医学文本，具有与人类专业相当的理解力》

清华孙茂松等自然·通讯杂志发表生物医学知识计算研究《深度学习系统桥接分子结构和生物医学文本，具有与人类专业相当的理解力》

专知会员服务

22+阅读 · 2022年2月23日

【视频描述综述论文】Video Description: A Survey of Methods, Datasets, and Evaluation Metrics

【视频描述综述论文】Video Description: A Survey of Methods, Datasets, and Evaluation Metrics

专知会员服务

65+阅读 · 2020年5月12日

生成式对抗网络先验贝叶斯推断，Bayesian Inference with Generative Adversarial Network Priors

生成式对抗网络先验贝叶斯推断，Bayesian Inference with Generative Adversarial Network Priors

专知会员服务

28+阅读 · 2020年2月18日

【图机器学习论文】基于深度学习的网络生物学（Deep Learning for Network Biology）

【图机器学习论文】基于深度学习的网络生物学（Deep Learning for Network Biology）

专知会员服务

11+阅读 · 2019年12月16日

PaperRobot: Automated Scientific Knowledge Graph Construction and Paper Writing，伊利诺伊大学香槟分校计算机科学系Heng Ji教授，CCKS-2019：知识智能

PaperRobot: Automated Scientific Knowledge Graph Construction and Paper Writing，伊利诺伊大学香槟分校计算机科学系Heng Ji教授，CCKS-2019：知识智能

专知会员服务

32+阅读 · 2019年10月25日

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

19+阅读 · 2019年10月22日

重磅！最新AI药物研发：白皮书、国内外技术报告、干货书、综述论文、关键技术最新论文（含实现代码）、数据集、教程课程讲解

重磅！最新AI药物研发：白皮书、国内外技术报告、干货书、综述论文、关键技术最新论文（含实现代码）、数据集、教程课程讲解

GenomicAI

14+阅读 · 2022年2月19日

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

AINLP

40+阅读 · 2019年6月9日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

BERT相关论文、文章和代码资源汇总

BERT相关论文、文章和代码资源汇总

AINLP

19+阅读 · 2018年11月17日

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

中国人工智能学会

12+阅读 · 2018年11月15日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

【论文推荐】最新六篇知识图谱相关论文—事件演化图、神经词义消歧、增强神经网络、Mem2Seq、用户偏好传播、概率嵌入

【论文推荐】最新六篇知识图谱相关论文—事件演化图、神经词义消歧、增强神经网络、Mem2Seq、用户偏好传播、概率嵌入

专知

19+阅读 · 2018年6月14日

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

全球人工智能

15+阅读 · 2018年2月8日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

全球人工智能

12+阅读 · 2017年11月12日

面向海量高维数据的可深度结合的贝叶斯网学习与推理新方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

生物序列大数据集模体发现算法的研究

国家自然科学基金

0+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于多生物网络的蛋白质功能预测算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

高准度二代测序比对算法

国家自然科学基金

3+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

蒙古高原反刍家畜基因序列比对分析云计算平台研究及变异关联数据库的构建

国家自然科学基金

0+阅读 · 2014年12月31日

基于生物网络的高维多目标算法及其在分布式调度中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

面向进化基因组学的高通量测序数据流形建模

国家自然科学基金

1+阅读 · 2014年12月31日

VeriStruct: AI-assisted Automated Verification of Data-Structure Modules in Verus

Arxiv

0+阅读 · 2月18日

HypoBench: Towards Systematic and Principled Benchmarking for Hypothesis Generation

Arxiv

0+阅读 · 2月10日

ContextBench: A Benchmark for Context Retrieval in Coding Agents

Arxiv

0+阅读 · 2月10日

ContextBench: A Benchmark for Context Retrieval in Coding Agents

Arxiv

0+阅读 · 2月5日

BABE: Biology Arena BEnchmark

Arxiv

0+阅读 · 2月5日

OneFlowSBI: One Model, Many Queries for Simulation-Based Inference

Arxiv

0+阅读 · 1月30日

RubberDuckBench: A Benchmark for AI Coding Assistants

Arxiv

0+阅读 · 1月23日

MARBLE: Multi-Agent Reasoning for Bioinformatics Learning and Evolution

Arxiv

0+阅读 · 1月20日

BioPulse-QA: A Dynamic Biomedical Question-Answering Benchmark for Evaluating Factuality, Robustness, and Bias in Large Language Models

Arxiv

0+阅读 · 1月19日

Benchmarking AI scientists for omics data driven biological discovery

Arxiv

0+阅读 · 1月18日

VIP会员

文章信息

相关主题

最新内容

【博士论文】基于物理结构与贝叶斯不确定性的可靠神经网络

【博士论文】基于物理结构与贝叶斯不确定性的可靠神经网络

专知会员服务

0+阅读 · 6月4日

AgentOps综述：智能体系统运维框架

AgentOps综述：智能体系统运维框架

专知会员服务

0+阅读 · 6月4日

《美陆军最新条令：兵力防护》

《美陆军最新条令：兵力防护》

专知会员服务

2+阅读 · 6月4日

《军用物联网：架构、应用、挑战与现代战争中的战略意义》

《军用物联网：架构、应用、挑战与现代战争中的战略意义》

专知会员服务

3+阅读 · 6月4日

《人工智能的挑战：算法战的想象与现实》

《人工智能的挑战：算法战的想象与现实》

专知会员服务

3+阅读 · 6月4日

《自适应智能：融合数字孪生精准性与人工智能预见力，实现实时决策》

《自适应智能：融合数字孪生精准性与人工智能预见力，实现实时决策》

专知会员服务

5+阅读 · 6月4日

首场人工智能战争：Maven如何重塑武装冲突

首场人工智能战争：Maven如何重塑武装冲突

专知会员服务

3+阅读 · 6月4日

【博士论文】抽象信息论与安全奖励学习的数学发展

【博士论文】抽象信息论与安全奖励学习的数学发展

专知会员服务

7+阅读 · 6月3日

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

专知会员服务

5+阅读 · 6月3日

《推进军事决策支持：运用强化学习驱动仿真的稳健作战计划验证》

《推进军事决策支持：运用强化学习驱动仿真的稳健作战计划验证》

专知会员服务

10+阅读 · 6月3日

详解人工智能赋能战争的旗舰软件平台：Maven智能系统

详解人工智能赋能战争的旗舰软件平台：Maven智能系统

专知会员服务

19+阅读 · 6月3日

《发展用于决策支持的化生放核（CBRN）态势理解》

《发展用于决策支持的化生放核（CBRN）态势理解》

专知会员服务

8+阅读 · 6月3日

《通往人工通用智能之路上的均衡策略》

《通往人工通用智能之路上的均衡策略》

专知会员服务

7+阅读 · 6月3日

《人工智能与军事整合：现状与未来风险》报告

《人工智能与军事整合：现状与未来风险》报告

专知会员服务

5+阅读 · 6月3日

《Palantir的科技生态系统》

《Palantir的科技生态系统》

专知会员服务

17+阅读 · 6月2日

相关VIP内容

生物信息学中的生成式人工智能：模型、应用与方法学进展的系统性综述

生物信息学中的生成式人工智能：模型、应用与方法学进展的系统性综述

专知会员服务

17+阅读 · 2025年11月10日

一文全面了解证据深度学习 | 中科院《证据深度学习及其应用》综述

一文全面了解证据深度学习 | 中科院《证据深度学习及其应用》综述

专知会员服务

36+阅读 · 2024年9月17日

iFeatureOmega: 一个对生物大分子序列、结构和化学小分子进行特征提取、分析和可视化的软件平台

iFeatureOmega: 一个对生物大分子序列、结构和化学小分子进行特征提取、分析和可视化的软件平台

专知会员服务

18+阅读 · 2022年7月18日

南大清华等《深度学习蛋白质设计》综述论文，涵盖16页pdf153篇文献阐述DL在蛋白质结构与序列设计的方法

南大清华等《深度学习蛋白质设计》综述论文，涵盖16页pdf153篇文献阐述DL在蛋白质结构与序列设计的方法

专知会员服务

22+阅读 · 2022年6月1日

清华孙茂松等自然·通讯杂志发表生物医学知识计算研究《深度学习系统桥接分子结构和生物医学文本，具有与人类专业相当的理解力》

清华孙茂松等自然·通讯杂志发表生物医学知识计算研究《深度学习系统桥接分子结构和生物医学文本，具有与人类专业相当的理解力》

专知会员服务

22+阅读 · 2022年2月23日

【视频描述综述论文】Video Description: A Survey of Methods, Datasets, and Evaluation Metrics

【视频描述综述论文】Video Description: A Survey of Methods, Datasets, and Evaluation Metrics

专知会员服务

65+阅读 · 2020年5月12日

生成式对抗网络先验贝叶斯推断，Bayesian Inference with Generative Adversarial Network Priors

生成式对抗网络先验贝叶斯推断，Bayesian Inference with Generative Adversarial Network Priors

专知会员服务

28+阅读 · 2020年2月18日

【图机器学习论文】基于深度学习的网络生物学（Deep Learning for Network Biology）

【图机器学习论文】基于深度学习的网络生物学（Deep Learning for Network Biology）

专知会员服务

11+阅读 · 2019年12月16日

PaperRobot: Automated Scientific Knowledge Graph Construction and Paper Writing，伊利诺伊大学香槟分校计算机科学系Heng Ji教授，CCKS-2019：知识智能

PaperRobot: Automated Scientific Knowledge Graph Construction and Paper Writing，伊利诺伊大学香槟分校计算机科学系Heng Ji教授，CCKS-2019：知识智能

专知会员服务

32+阅读 · 2019年10月25日

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

19+阅读 · 2019年10月22日

热门VIP内容

开通专知VIP会员享更多权益服务

AgentOps综述：智能体系统运维框架

《军用物联网：架构、应用、挑战与现代战争中的战略意义》

【博士论文】基于物理结构与贝叶斯不确定性的可靠神经网络

《美陆军最新条令：兵力防护》

相关资讯

重磅！最新AI药物研发：白皮书、国内外技术报告、干货书、综述论文、关键技术最新论文（含实现代码）、数据集、教程课程讲解

重磅！最新AI药物研发：白皮书、国内外技术报告、干货书、综述论文、关键技术最新论文（含实现代码）、数据集、教程课程讲解

GenomicAI

14+阅读 · 2022年2月19日

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

AINLP

40+阅读 · 2019年6月9日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

BERT相关论文、文章和代码资源汇总

BERT相关论文、文章和代码资源汇总

AINLP

19+阅读 · 2018年11月17日

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

中国人工智能学会

12+阅读 · 2018年11月15日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

【论文推荐】最新六篇知识图谱相关论文—事件演化图、神经词义消歧、增强神经网络、Mem2Seq、用户偏好传播、概率嵌入

【论文推荐】最新六篇知识图谱相关论文—事件演化图、神经词义消歧、增强神经网络、Mem2Seq、用户偏好传播、概率嵌入

专知

19+阅读 · 2018年6月14日

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

全球人工智能

15+阅读 · 2018年2月8日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

全球人工智能

12+阅读 · 2017年11月12日

相关论文

VeriStruct: AI-assisted Automated Verification of Data-Structure Modules in Verus

Arxiv

0+阅读 · 2月18日

HypoBench: Towards Systematic and Principled Benchmarking for Hypothesis Generation

Arxiv

0+阅读 · 2月10日

ContextBench: A Benchmark for Context Retrieval in Coding Agents

Arxiv

0+阅读 · 2月10日

ContextBench: A Benchmark for Context Retrieval in Coding Agents

Arxiv

0+阅读 · 2月5日

BABE: Biology Arena BEnchmark

Arxiv

0+阅读 · 2月5日

OneFlowSBI: One Model, Many Queries for Simulation-Based Inference

Arxiv

0+阅读 · 1月30日

RubberDuckBench: A Benchmark for AI Coding Assistants

Arxiv

0+阅读 · 1月23日

MARBLE: Multi-Agent Reasoning for Bioinformatics Learning and Evolution

Arxiv

0+阅读 · 1月20日

BioPulse-QA: A Dynamic Biomedical Question-Answering Benchmark for Evaluating Factuality, Robustness, and Bias in Large Language Models

Arxiv

0+阅读 · 1月19日

Benchmarking AI scientists for omics data driven biological discovery

Arxiv

0+阅读 · 1月18日

相关基金

面向海量高维数据的可深度结合的贝叶斯网学习与推理新方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

生物序列大数据集模体发现算法的研究

国家自然科学基金

0+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于多生物网络的蛋白质功能预测算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

高准度二代测序比对算法

国家自然科学基金

3+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

蒙古高原反刍家畜基因序列比对分析云计算平台研究及变异关联数据库的构建

国家自然科学基金

0+阅读 · 2014年12月31日

基于生物网络的高维多目标算法及其在分布式调度中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

面向进化基因组学的高通量测序数据流形建模

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员