Large language models (LLMs) are increasingly applied in scientific research, offering new capabilities for knowledge discovery and reasoning. In single-cell biology, however, evaluation practices for both general and specialized LLMs remain inadequate: existing benchmarks are fragmented across tasks, adopt formats such as multiple-choice classification that diverge from real-world usage, and rely on metrics lacking interpretability and biological grounding. We present SC-ARENA, a natural language evaluation framework tailored to single-cell foundation models. SC-ARENA formalizes a virtual cell abstraction that unifies evaluation targets by representing both intrinsic attributes and gene-level interactions. Within this paradigm, we define five natural language tasks (cell type annotation, captioning, generation, perturbation prediction, and scientific QA) that probe core reasoning capabilities in cellular biology. To overcome the limitations of brittle string-matching metrics, we introduce knowledge-augmented evaluation, which incorporates external ontologies, marker databases, and scientific literature to support biologically faithful and interpretable judgments. Experiments and analysis across both general-purpose and domain-specialized LLMs demonstrate that (i) under the Virtual Cell unified evaluation paradigm, current models achieve uneven performance on biologically complex tasks, particularly those demanding mechanistic or causal understanding; and (ii) our knowledge-augmented evaluation framework ensures biological correctness, provides interpretable, evidence-grounded rationales, and achieves high discriminative capacity, overcoming the brittleness and opacity of conventional metrics. SC-Arena thus provides a unified and interpretable framework for assessing LLMs in single-cell biology, pointing toward the development of biology-aligned, generalizable foundation models.


翻译:大型语言模型(LLM)在科学研究中的应用日益广泛,为知识发现与推理提供了新的能力。然而,在单细胞生物学领域,无论是通用还是专用LLM的评估实践仍不充分:现有基准分散于不同任务,采用多项选择分类等与现实应用脱节的形式,且依赖缺乏可解释性与生物学依据的指标。我们提出了SC-ARENA,一个专为单细胞基础模型设计的自然语言评估框架。SC-ARENA形式化了一种虚拟细胞抽象,通过表征内在属性与基因层面相互作用来统一评估目标。在此范式下,我们定义了五项自然语言任务(细胞类型注释、描述生成、细胞生成、扰动预测与科学问答),以探究细胞生物学中的核心推理能力。为克服脆弱字符串匹配指标的局限,我们引入了知识增强评估,该方法整合外部本体、标记基因数据库与科学文献,以支持符合生物学事实且可解释的判断。在通用与领域专用LLM上的实验与分析表明:(i)在虚拟细胞统一评估范式下,现有模型在生物学复杂任务上表现不均,尤其在对机制或因果理解有要求的任务中;(ii)我们的知识增强评估框架确保了生物学正确性,提供了可解释、有证据支持的推理依据,并实现了高区分度,克服了传统指标的脆弱性与不透明性。因此,SC-Arena为评估单细胞生物学中的LLM提供了一个统一且可解释的框架,为开发生物学对齐、可泛化的基础模型指明了方向。

0
下载
关闭预览

相关内容

具有动能的生命体。
评估大语言模型在科学发现中的作用
专知会员服务
19+阅读 · 2025年12月19日
大型语言模型推理增强外部知识:综述
专知会员服务
38+阅读 · 2025年6月2日
大型语言模型高效推理综述
专知会员服务
64+阅读 · 2024年4月23日
天大最新《大型语言模型评估》全面综述,111页pdf
专知会员服务
88+阅读 · 2023年10月31日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
自然语言处理(NLP)知识结构总结
AI100
51+阅读 · 2018年8月17日
清华发布《2018自然语言处理研究报告》
智能交通技术
17+阅读 · 2018年8月4日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
NLP(自然语言处理)扫盲
大数据和云计算技术
20+阅读 · 2017年7月9日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
12+阅读 · 2015年7月1日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
最新“指挥控制”领域出版物合集(16份)
专知会员服务
7+阅读 · 4月12日
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
15+阅读 · 4月12日
远程空中优势:新一代超视距导弹的兴起
专知会员服务
2+阅读 · 4月12日
大语言模型溯因推理的统一分类学与综述
专知会员服务
4+阅读 · 4月12日
相关基金
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员