Biomedical literature and clinical narratives pose multifaceted challenges for natural language understanding, from precise entity extraction and document synthesis to multi-step diagnostic reasoning. This study extends a unified benchmark to evaluate GPT-5 and GPT-4o under zero-, one-, and five-shot prompting across five core biomedical NLP tasks: named entity recognition, relation extraction, multi-label document classification, summarization, and simplification, and nine expanded biomedical QA datasets covering factual knowledge, clinical reasoning, and multimodal visual understanding. Using standardized prompts, fixed decoding parameters, and consistent inference pipelines, we assessed model performance, latency, and token-normalized cost under official pricing. GPT-5 consistently outperformed GPT-4o, with the largest gains on reasoning-intensive datasets such as MedXpertQA and DiagnosisArena and stable improvements in multimodal QA. In core tasks, GPT-5 achieved better chemical NER and ChemProt scores but remained below domain-tuned baselines for disease NER and summarization. Despite producing longer outputs, GPT-5 showed comparable latency and 30 to 50 percent lower effective cost per correct prediction. Fine-grained analyses revealed improvements in diagnosis, treatment, and reasoning subtypes, whereas boundary-sensitive extraction and evidence-dense summarization remain challenging. Overall, GPT-5 approaches deployment-ready performance for biomedical QA while offering a favorable balance of accuracy, interpretability, and economic efficiency. The results support a tiered prompting strategy: direct prompting for large-scale or cost-sensitive applications, and chain-of-thought scaffolds for analytically complex or high-stakes scenarios, highlighting the continued need for hybrid solutions where precision and factual fidelity are critical.


翻译:生物医学文献与临床叙述对自然语言理解提出了多方面的挑战,涵盖从精确的实体提取与文档综合到多步骤诊断推理的各个环节。本研究扩展了一个统一基准,用于评估GPT-5与GPT-4o在零样本、单样本及五样本提示下的表现,测试范围包括五项核心生物医学NLP任务:命名实体识别、关系抽取、多标签文档分类、摘要生成与文本简化,以及九个扩展的生物医学问答数据集,这些数据集覆盖了事实性知识、临床推理与多模态视觉理解。通过采用标准化提示、固定解码参数和一致的推理流程,我们评估了模型在官方定价下的性能、延迟以及经令牌数归一化的成本。GPT-5在所有任务中均持续优于GPT-4o,在推理密集型数据集(如MedXpertQA和DiagnosisArena)上提升最为显著,并在多模态问答任务中保持稳定的改进。在核心任务中,GPT-5在化学命名实体识别和ChemProt关系抽取上取得了更好的分数,但在疾病命名实体识别和摘要生成方面仍低于领域微调的基线模型。尽管GPT-5生成的输出更长,但其延迟时间与GPT-4o相当,且每个正确预测的有效成本降低了30%至50%。细粒度分析显示,模型在诊断、治疗和推理子类型上有所改进,而对边界敏感的实体抽取和证据密集的摘要生成仍是挑战。总体而言,GPT-5在生物医学问答任务上已接近可部署性能水平,同时在准确性、可解释性和经济性之间提供了有利的平衡。研究结果支持一种分层提示策略:对于大规模或成本敏感的应用采用直接提示,而对于分析复杂或高风险场景则采用思维链框架,这凸显了在精度与事实保真度至关重要的领域,仍需发展混合解决方案。

0
下载
关闭预览

相关内容

FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
34+阅读 · 2019年10月18日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
163+阅读 · 2019年10月12日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关资讯
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员