Pharmacokinetics (PK) plays a critical role in drug development and regulatory decision-making for human and veterinary medicine, directly affecting public health through drug safety and efficacy assessments. However, PK data are often embedded in complex, heterogeneous tables with variable structures and inconsistent terminologies, posing significant challenges for automated PK data retrieval and standardization. AutoPK, a novel two-stage framework for accurate and scalable extraction of PK data from complex scientific tables. In the first stage, AutoPK identifies and extracts PK parameter variants using large language models (LLMs), a hybrid similarity metric, and LLM-based validation. The second stage filters relevant rows, converts the table into a key-value text format, and uses an LLM to reconstruct a standardized table. Evaluated on a real-world dataset of 605 PK tables, including captions and footnotes, AutoPK shows significant improvements in precision and recall over direct LLM baselines. For instance, AutoPK with LLaMA 3.1-70B achieved an F1-score of 0.92 on half-life and 0.91 on clearance parameters, outperforming direct use of LLaMA 3.1-70B by margins of 0.10 and 0.21, respectively. Smaller models such as Gemma 3-27B and Phi 3-12B with AutoPK achieved 2-7 fold F1 gains over their direct use, with Gemma's hallucination rates reduced from 60-95% down to 8-14%. Notably, AutoPK enabled open-source models like Gemma 3-27B to outperform commercial systems such as GPT-4o Mini on several PK parameters. AutoPK enables scalable and high-confidence PK data extraction, making it well-suited for critical applications in veterinary pharmacology, drug safety monitoring, and public health decision-making, while addressing heterogeneous table structures and terminology and demonstrating generalizability across key PK parameters. Code and data: https://github.com/hosseinsholehrasa/AutoPK


翻译:药代动力学(PK)在人类与兽医学的药物研发及监管决策中发挥关键作用,通过药物安全性与有效性评估直接影响公共卫生。然而,PK数据常嵌入于结构多变、术语不统一的复杂异构表格中,给自动化PK数据检索与标准化带来重大挑战。本文提出AutoPK——一种面向复杂科学表格,实现精准且可扩展的PK数据提取的新型两阶段框架。第一阶段,AutoPK利用大语言模型(LLMs)、混合相似度度量及基于LLM的验证机制,识别并提取PK参数变体;第二阶段过滤相关行,将表格转换为键值文本格式,并通过LLM重构标准化表格。在包含605个PK表格(含标题与脚注)的真实数据集上评估表明,AutoPK在精确率与召回率上较直接应用LLM基线方法有显著提升。例如,基于LLaMA 3.1-70B的AutoPK在半衰期参数上F1分数达0.92,清除率参数达0.91,分别较直接使用LLaMA 3.1-70B提升0.10和0.21。结合AutoPK的小型模型如Gemma 3-27B与Phi 3-12B,其F1分数较直接使用提升2至7倍,且Gemma的幻觉率从60-95%降至8-14%。值得注意的是,AutoPK使Gemma 3-27B等开源模型在多项PK参数上超越GPT-4o Mini等商业系统。AutoPK实现了可扩展且高置信度的PK数据提取,特别适用于兽医药理学、药物安全监测及公共卫生决策等关键应用,同时有效应对异构表格结构与术语差异,并在关键PK参数间展现出良好泛化能力。代码与数据:https://github.com/hosseinsholehrasa/AutoPK

0
下载
关闭预览

相关内容

Nature速递:基于大语言模型的自动化学研究
专知会员服务
35+阅读 · 2024年1月5日
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
《Engineering》:从数据到AI药物研发
专知会员服务
46+阅读 · 2023年5月17日
图表示学习技术在药物推荐系统中的应用
专知会员服务
15+阅读 · 2023年1月1日
概述自动机器学习(AutoML)
人工智能学家
19+阅读 · 2019年8月11日
【综述】自动机器学习AutoML最新65页综述,带你了解最新进展
中国人工智能学会
48+阅读 · 2019年5月3日
NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿
中国人工智能学会
12+阅读 · 2018年11月15日
NLP中自动生产文摘(auto text summarization)
机器学习研究会
14+阅读 · 2017年10月10日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
1+阅读 · 48分钟前
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
4+阅读 · 今天13:49
基于声学的无人机检测技术综述
专知会员服务
3+阅读 · 今天13:37
《当代混合战争分析框架:俄乌战争经验教训》
专知会员服务
4+阅读 · 今天13:11
战略前沿人工智能的再思考(中文)
专知会员服务
7+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
5+阅读 · 5月29日
“史诗怒火行动”中美军损失的作战飞机
专知会员服务
6+阅读 · 5月29日
ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
5+阅读 · 5月28日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员