Evaluating local large language models for structured extraction from endometriosis-specific transvaginal ultrasound reports - 专知论文

会员服务 ·

0

结构 · 结构化 · 超声 · 提取 · 参数模型 ·

Evaluating local large language models for structured extraction from endometriosis-specific transvaginal ultrasound reports

翻译：评估本地大型语言模型在子宫内膜异位症特异性经阴道超声报告结构化提取中的应用

Haiyi Li,Yutong Li,Yiheng Chi,Alison Deslandes,Mathew Leonardi,Shay Freger,Yuan Zhang,Jodie Avery,M. Louise Hull,Hsiang-Ting Chen

In this study, we evaluate a locally-deployed large-language model (LLM) to convert unstructured endometriosis transvaginal ultrasound (eTVUS) scan reports into structured data for imaging informatics workflows. Across 49 eTVUS reports, we compared three LLMs (7B/8B and a 20B-parameter model) against expert human extraction. The 20B model achieved a mean accuracy of 86.02%, substantially outperforming smaller models and confirming the importance of scale in handling complex clinical text. Crucially, we identified a highly complementary error profile: the LLM excelled at syntactic consistency (e.g., date/numeric formatting) where humans faltered, while human experts provided superior semantic and contextual interpretation. We also found that the LLM's semantic errors were fundamental limitations that could not be mitigated by simple prompt engineering. These findings strongly support a human-in-the-loop (HITL) workflow in which the on-premise LLM serves as a collaborative tool, not a full replacement. It automates routine structuring and flags potential human errors, enabling imaging specialists to focus on high-level semantic validation. We discuss implications for structured reporting and interactive AI systems in clinical practice.

翻译：本研究评估了一种本地部署的大型语言模型（LLM），用于将非结构化的子宫内膜异位症经阴道超声（eTVUS）扫描报告转换为结构化数据，以支持影像信息学工作流程。基于49份eTVUS报告，我们比较了三种LLM（7B/8B参数模型和一种200亿参数模型）与专家人工提取的效果。200亿参数模型的平均准确率达到86.02%，显著优于较小规模模型，证实了模型规模在处理复杂临床文本中的重要性。关键的是，我们发现了一种高度互补的错误模式：LLM在人类易出错的句法一致性（如日期/数字格式）方面表现优异，而人类专家在语义和上下文解释方面更具优势。我们还发现，LLM的语义错误是其固有局限，无法通过简单的提示工程来缓解。这些发现有力地支持了人在回路（HITL）工作流程，其中本地部署的LLM作为协作工具而非完全替代方案。它自动化常规结构化处理并标记潜在人为错误，使影像专家能够专注于高层语义验证。我们讨论了结构化报告和交互式AI系统在临床实践中的应用前景。

0

相关内容

评估大语言模型在科学发现中的作用

评估大语言模型在科学发现中的作用

专知会员服务

19+阅读 · 2025年12月19日

医学领域大型语言模型的新进展

医学领域大型语言模型的新进展

专知会员服务

25+阅读 · 2025年10月5日

专门化大型语言模型综述

专门化大型语言模型综述

专知会员服务

35+阅读 · 2025年8月28日

大语言模型在多模态推荐系统中的应用综述

大语言模型在多模态推荐系统中的应用综述

专知会员服务

17+阅读 · 2025年5月17日

大型语言模型在生物信息学中的应用综述

大型语言模型在生物信息学中的应用综述

专知会员服务

16+阅读 · 2025年3月15日

大规模语言模型在生物信息学中的应用

大规模语言模型在生物信息学中的应用

专知会员服务

18+阅读 · 2025年1月16日

《语音大语言模型》最新进展综述

《语音大语言模型》最新进展综述

专知会员服务

57+阅读 · 2024年10月8日

大型语言模型疾病诊断综述

大型语言模型疾病诊断综述

专知会员服务

32+阅读 · 2024年9月21日

《多模态大语言模型评估综述》

《多模态大语言模型评估综述》

专知会员服务

40+阅读 · 2024年8月29日

大型语言模型在预测和异常检测中的应用综述

大型语言模型在预测和异常检测中的应用综述

专知会员服务

70+阅读 · 2024年2月19日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

【CIKM2019论文】韩家炜团队HyperMine：富文本异构信息网络探索上位词

【CIKM2019论文】韩家炜团队HyperMine：富文本异构信息网络探索上位词

专知

14+阅读 · 2019年11月9日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

清华发布《2018自然语言处理研究报告》，65页PDF下载

清华发布《2018自然语言处理研究报告》，65页PDF下载

专知

29+阅读 · 2018年7月28日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

全基因外显子组测序联合功能基因组学探索子宫内膜异位症恶变的驱动基因

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

多模态MRI探索宫颈癌侵袭性及同步放化疗疗效评估的应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

雌激素诱导骨髓间充质干细胞分化在内异症发生中的作用机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

ESR1经SDF-1/CXCR4轴介导的BMSCs归巢与分化在薄型子宫内膜发病中的作用及分子机制

国家自然科学基金

0+阅读 · 2014年12月31日

应激在子宫内膜异位症发生发展中的作用

国家自然科学基金

0+阅读 · 2014年12月31日

子宫内膜异位症疼痛的中枢敏化机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

More than Decision Support: Exploring Patients' Longitudinal Usage of Large Language Models in Real-World Healthcare-Seeking Journeys

Arxiv

0+阅读 · 2月16日

Beyond Judgment: Exploring Large Language Models as Non-Judgmental Support for Maternal Mental Health

Arxiv

0+阅读 · 2月13日

Diagnosing Structural Failures in LLM-Based Evidence Extraction for Meta-Analysis

Arxiv

0+阅读 · 2月11日

Large Language Models for Geolocation Extraction in Humanitarian Crisis Response

Arxiv

0+阅读 · 2月9日

Emergent Structured Representations Support Flexible In-Context Inference in Large Language Models

Arxiv

0+阅读 · 2月8日

Evaluating Large Language Models for Detecting Architectural Decision Violations

Arxiv

0+阅读 · 2月7日

EndoExtract: Co-Designing Structured Text Extraction from Endometriosis Ultrasound Reports

Arxiv

0+阅读 · 1月26日

Who Fails Where? LLM and Human Error Patterns in Endometriosis Ultrasound Report Extraction

Arxiv

0+阅读 · 1月26日

Rethinking Large Language Models For Irregular Time Series Classification In Critical Care

Arxiv

0+阅读 · 1月23日

A Comprehensive Study on Large Language Models for Mutation Testing

Arxiv

0+阅读 · 1月22日

VIP会员

文章信息

相关主题

最新内容

【斯坦福博士论文】语言模型的机械可解释性与控制

【斯坦福博士论文】语言模型的机械可解释性与控制

专知会员服务

0+阅读 · 48分钟前

大语言模型智能体长期记忆安全性综述：迈向记忆主权

大语言模型智能体长期记忆安全性综述：迈向记忆主权

专知会员服务

0+阅读 · 53分钟前

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

专知会员服务

3+阅读 · 今天7:11

人工智能赋能无人机：俄乌战争（万字长文）

人工智能赋能无人机：俄乌战争（万字长文）

专知会员服务

4+阅读 · 今天6:56

国外海军作战管理系统与作战训练系统

国外海军作战管理系统与作战训练系统

专知会员服务

2+阅读 · 今天4:16

美军条令《海军陆战队规划流程（2026版）》

美军条令《海军陆战队规划流程（2026版）》

专知会员服务

9+阅读 · 今天3:36

《压缩式分布式交互仿真标准》120页

《压缩式分布式交互仿真标准》120页

专知会员服务

4+阅读 · 今天3:21

《电子战数据交换模型研究报告》

《电子战数据交换模型研究报告》

专知会员服务

6+阅读 · 今天3:13

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

专知会员服务

4+阅读 · 今天2:55

《基于Transformer的异常舰船导航识别与跟踪》80页

《基于Transformer的异常舰船导航识别与跟踪》80页

专知会员服务

7+阅读 · 今天2:45

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

专知会员服务

6+阅读 · 今天2:41

《低数据领域军事目标检测模型研究》

《低数据领域军事目标检测模型研究》

专知会员服务

6+阅读 · 今天2:37

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

专知会员服务

6+阅读 · 今天2:32

【CMU博士论文】物理世界的视觉感知与深度理解

【CMU博士论文】物理世界的视觉感知与深度理解

专知会员服务

10+阅读 · 4月22日

多智能体系统：从经典范式到大基础模型驱动的未来

多智能体系统：从经典范式到大基础模型驱动的未来

专知会员服务

17+阅读 · 4月22日

相关VIP内容

评估大语言模型在科学发现中的作用

评估大语言模型在科学发现中的作用

专知会员服务

19+阅读 · 2025年12月19日

医学领域大型语言模型的新进展

医学领域大型语言模型的新进展

专知会员服务

25+阅读 · 2025年10月5日

专门化大型语言模型综述

专门化大型语言模型综述

专知会员服务

35+阅读 · 2025年8月28日

大语言模型在多模态推荐系统中的应用综述

大语言模型在多模态推荐系统中的应用综述

专知会员服务

17+阅读 · 2025年5月17日

大型语言模型在生物信息学中的应用综述

大型语言模型在生物信息学中的应用综述

专知会员服务

16+阅读 · 2025年3月15日

大规模语言模型在生物信息学中的应用

大规模语言模型在生物信息学中的应用

专知会员服务

18+阅读 · 2025年1月16日

《语音大语言模型》最新进展综述

《语音大语言模型》最新进展综述

专知会员服务

57+阅读 · 2024年10月8日

大型语言模型疾病诊断综述

大型语言模型疾病诊断综述

专知会员服务

32+阅读 · 2024年9月21日

《多模态大语言模型评估综述》

《多模态大语言模型评估综述》

专知会员服务

40+阅读 · 2024年8月29日

大型语言模型在预测和异常检测中的应用综述

大型语言模型在预测和异常检测中的应用综述

专知会员服务

70+阅读 · 2024年2月19日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型智能体长期记忆安全性综述：迈向记忆主权

人工智能赋能无人机：俄乌战争（万字长文）

【斯坦福博士论文】语言模型的机械可解释性与控制

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

【CIKM2019论文】韩家炜团队HyperMine：富文本异构信息网络探索上位词

【CIKM2019论文】韩家炜团队HyperMine：富文本异构信息网络探索上位词

专知

14+阅读 · 2019年11月9日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

清华发布《2018自然语言处理研究报告》，65页PDF下载

清华发布《2018自然语言处理研究报告》，65页PDF下载

专知

29+阅读 · 2018年7月28日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

More than Decision Support: Exploring Patients' Longitudinal Usage of Large Language Models in Real-World Healthcare-Seeking Journeys

Arxiv

0+阅读 · 2月16日

Beyond Judgment: Exploring Large Language Models as Non-Judgmental Support for Maternal Mental Health

Arxiv

0+阅读 · 2月13日

Diagnosing Structural Failures in LLM-Based Evidence Extraction for Meta-Analysis

Arxiv

0+阅读 · 2月11日

Large Language Models for Geolocation Extraction in Humanitarian Crisis Response

Arxiv

0+阅读 · 2月9日

Emergent Structured Representations Support Flexible In-Context Inference in Large Language Models

Arxiv

0+阅读 · 2月8日

Evaluating Large Language Models for Detecting Architectural Decision Violations

Arxiv

0+阅读 · 2月7日

EndoExtract: Co-Designing Structured Text Extraction from Endometriosis Ultrasound Reports

Arxiv

0+阅读 · 1月26日

Who Fails Where? LLM and Human Error Patterns in Endometriosis Ultrasound Report Extraction

Arxiv

0+阅读 · 1月26日

Rethinking Large Language Models For Irregular Time Series Classification In Critical Care

Arxiv

0+阅读 · 1月23日

A Comprehensive Study on Large Language Models for Mutation Testing

Arxiv

0+阅读 · 1月22日

相关基金

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

全基因外显子组测序联合功能基因组学探索子宫内膜异位症恶变的驱动基因

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

多模态MRI探索宫颈癌侵袭性及同步放化疗疗效评估的应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

雌激素诱导骨髓间充质干细胞分化在内异症发生中的作用机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

ESR1经SDF-1/CXCR4轴介导的BMSCs归巢与分化在薄型子宫内膜发病中的作用及分子机制

国家自然科学基金

0+阅读 · 2014年12月31日

应激在子宫内膜异位症发生发展中的作用

国家自然科学基金

0+阅读 · 2014年12月31日

子宫内膜异位症疼痛的中枢敏化机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员