Large language models (LLMs) have shown growing promise in biomedical research, particularly for knowledge-driven interpretation tasks. However, their ability to reliably reason from gene-level knowledge to functional understanding, a core requirement for knowledge-enhanced cell atlas interpretation, remains largely underexplored. To address this gap, we introduce SciHorizon-GENE, a large-scale gene-centric benchmark constructed from authoritative biological databases. The benchmark integrates curated knowledge for over 190K human genes and comprises more than 540K questions covering diverse gene-to-function reasoning scenarios relevant to cell type annotation, functional interpretation, and mechanism-oriented analysis. Motivated by behavioral patterns observed in preliminary examinations, SciHorizon-GENE evaluates LLMs along four biologically critical perspectives: research attention sensitivity, hallucination tendency, answer completeness, and literature influence, explicitly targeting failure modes that limit the safe adoption of LLMs in biological interpretation pipelines. We systematically evaluate a wide range of state-of-the-art general-purpose and biomedical LLMs, revealing substantial heterogeneity in gene-level reasoning capabilities and persistent challenges in generating faithful, complete, and literature-grounded functional interpretations. Our benchmark establishes a systematic foundation for analyzing LLM behavior at the gene scale and offers insights for model selection and development, with direct relevance to knowledge-enhanced biological interpretation.


翻译:大型语言模型(LLM)在生物医学研究中展现出日益广阔的前景,尤其是在知识驱动的解释任务中。然而,它们能否从基因层面的知识可靠地推理至功能理解——这是知识增强型细胞图谱解释的一项核心要求——在很大程度上仍未得到充分探索。为填补这一空白,我们推出了SciHorizon-GENE,一个基于权威生物数据库构建的大规模、以基因为中心的基准测试。该基准整合了超过19万个人类基因的精选知识,并包含了超过54万个问题,涵盖了与细胞类型注释、功能解释和机制导向分析相关的多种基因到功能的推理场景。受初步考察中观察到的行为模式启发,SciHorizon-GENE从四个对生物学至关重要的维度评估LLM:研究关注度敏感性、幻觉倾向、答案完整性以及文献影响力,明确针对那些限制LLM在生物解释流程中安全应用的失效模式。我们系统地评估了多种最先进的通用型和生物医学专用LLM,揭示了它们在基因层面推理能力上的显著异质性,以及在生成忠实、完整且基于文献的功能解释方面所面临的持续挑战。我们的基准为分析LLM在基因尺度上的行为建立了系统性基础,并为模型选择与开发提供了洞见,对知识增强型生物解释具有直接相关性。

0
下载
关闭预览

相关内容

评估大语言模型在科学发现中的作用
专知会员服务
19+阅读 · 2025年12月19日
大型语言模型(LLM)赋能的知识图谱构建:综述
专知会员服务
54+阅读 · 2025年10月24日
学习地球科学知识理解和利用的基础语言模型
专知会员服务
30+阅读 · 2023年6月10日
理解人类推理的深度学习
论智
19+阅读 · 2018年11月7日
报告 | 腾讯知文,从0到1打造下一代智能问答引擎【CCF-GAIR】
机器学习算法与Python学习
13+阅读 · 2018年7月4日
论文浅尝 | 基于神经网络的知识推理
开放知识图谱
15+阅读 · 2018年3月12日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员