Who Fails Where? LLM and Human Error Patterns in Endometriosis Ultrasound Report Extraction - 专知论文

会员服务 ·

0

结构 · 结构化 · 超声 · 提取 · 分析 ·

Who Fails Where? LLM and Human Error Patterns in Endometriosis Ultrasound Report Extraction

翻译：谁在何处出错？LLM与人类在子宫内膜异位症超声报告提取中的错误模式分析

Haiyi Li,Yutong Li,Yiheng Chi,Alison Deslandes,Mathew Leonardi,Shay Freger,Yuan Zhang,Jodie Avery,M. Louise Hull,Hsiang-Ting Chen

In this study, we evaluate a locally-deployed large-language model (LLM) to convert unstructured endometriosis transvaginal ultrasound (eTVUS) scan reports into structured data for imaging informatics workflows. Across 49 eTVUS reports, we compared three LLMs (7B/8B and a 20B-parameter model) against expert human extraction. The 20B model achieved a mean accuracy of 86.02%, substantially outperforming smaller models and confirming the importance of scale in handling complex clinical text. Crucially, we identified a highly complementary error profile: the LLM excelled at syntactic consistency (e.g., date/numeric formatting) where humans faltered, while human experts provided superior semantic and contextual interpretation. We also found that the LLM's semantic errors were fundamental limitations that could not be mitigated by simple prompt engineering. These findings strongly support a human-in-the-loop (HITL) workflow in which the on-premise LLM serves as a collaborative tool, not a full replacement. It automates routine structuring and flags potential human errors, enabling imaging specialists to focus on high-level semantic validation. We discuss implications for structured reporting and interactive AI systems in clinical practice.

翻译：本研究评估了一种本地部署的大型语言模型（LLM），用于将非结构化的子宫内膜异位症经阴道超声（eTVUS）扫描报告转换为结构化数据，以支持影像信息学工作流程。通过对49份eTVUS报告的分析，我们比较了三种LLM（7B/8B参数模型及一个200亿参数模型）与专家人工提取的性能。200亿参数模型取得了86.02%的平均准确率，显著优于较小规模模型，证实了模型规模在处理复杂临床文本中的重要性。关键发现是，两者呈现出高度互补的错误特征：LLM在人类易出错的句法一致性任务（如日期/数字格式化）上表现优异，而人类专家在语义与上下文解读方面更具优势。研究同时发现，LLM的语义错误属于根本性局限，无法通过简单的提示工程缓解。这些发现有力支持了人在回路（HITL）工作流程，即本地部署的LLM应作为协作工具而非完全替代方案。该方案可自动化常规结构化处理并标记潜在人为错误，使影像专家能专注于高层级语义验证。本文进一步探讨了结构化报告与交互式AI系统在临床实践中的应用前景。

0

相关内容

LLM/智能体作为数据分析师：综述

LLM/智能体作为数据分析师：综述

专知会员服务

38+阅读 · 2025年9月30日

LLM4SR：关于大规模语言模型在科学研究中的应用综述

LLM4SR：关于大规模语言模型在科学研究中的应用综述

专知会员服务

42+阅读 · 2025年1月9日

《LLM 时代小模型的作用》综述

《LLM 时代小模型的作用》综述

专知会员服务

49+阅读 · 2024年9月12日

大型语言模型（LLMs），附Slides与视频

大型语言模型（LLMs），附Slides与视频

专知会员服务

71+阅读 · 2024年6月30日

LLM4Science怎么做？UIUC等最新《科学大型语言模型及其在科学发现中的应用》综述

LLM4Science怎么做？UIUC等最新《科学大型语言模型及其在科学发现中的应用》综述

专知会员服务

35+阅读 · 2024年6月23日

大型语言模型在预测和异常检测中的应用综述

大型语言模型在预测和异常检测中的应用综述

专知会员服务

70+阅读 · 2024年2月19日

【ICLR2024】能检测到LLM产生的错误信息吗？

【ICLR2024】能检测到LLM产生的错误信息吗？

专知会员服务

25+阅读 · 2024年1月23日

【大模型+仿射科学】LLM在放射科学中应用潜力如何？数十家研究机构联合测试了31个大模型

【大模型+仿射科学】LLM在放射科学中应用潜力如何？数十家研究机构联合测试了31个大模型

专知会员服务

24+阅读 · 2023年9月15日

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

专知会员服务

93+阅读 · 2023年6月1日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

EMNLP 2019开源论文：针对短文本分类的异质图注意力网络

EMNLP 2019开源论文：针对短文本分类的异质图注意力网络

PaperWeekly

31+阅读 · 2019年10月22日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

赛尔原创 | EMNLP 2019 基于上下文感知的变分自编码器建模事件背景知识进行If-Then类型常识推理

赛尔原创 | EMNLP 2019 基于上下文感知的变分自编码器建模事件背景知识进行If-Then类型常识推理

哈工大SCIR

17+阅读 · 2019年9月23日

异常检测论文大列表：方法、应用、综述

异常检测论文大列表：方法、应用、综述

专知

126+阅读 · 2019年7月15日

动态可视化指南：一步步拆解LSTM和GRU

动态可视化指南：一步步拆解LSTM和GRU

论智

17+阅读 · 2018年10月25日

论文浅尝 | 嵌入常识知识的注意力 LSTM 模型用于特定目标的基于侧面的情感分析

论文浅尝 | 嵌入常识知识的注意力 LSTM 模型用于特定目标的基于侧面的情感分析

开放知识图谱

28+阅读 · 2018年6月11日

放弃 RNN/LSTM 吧，因为真的不好用！望周知~

放弃 RNN/LSTM 吧，因为真的不好用！望周知~

人工智能头条

19+阅读 · 2018年4月24日

删失数据超高维共线性模型的变量选择

国家自然科学基金

0+阅读 · 2017年12月31日

LncRNA介导肿瘤相关巨噬细胞促进乳腺癌转移分子机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

全基因外显子组测序联合功能基因组学探索子宫内膜异位症恶变的驱动基因

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

雌激素诱导骨髓间充质干细胞分化在内异症发生中的作用机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

ESR1经SDF-1/CXCR4轴介导的BMSCs归巢与分化在薄型子宫内膜发病中的作用及分子机制

国家自然科学基金

0+阅读 · 2014年12月31日

高维混合数据异常知识发现的粒计算模型关键问题研究

国家自然科学基金

1+阅读 · 2014年12月31日

miR-449b调控CSFR1影响子宫内膜异位种植的分子机制

国家自然科学基金

0+阅读 · 2014年12月31日

应激在子宫内膜异位症发生发展中的作用

国家自然科学基金

0+阅读 · 2014年12月31日

子宫内膜异位症疼痛的中枢敏化机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

ProbeLLM: Automating Principled Diagnosis of LLM Failures

Arxiv

0+阅读 · 2月13日

Diagnosing Structural Failures in LLM-Based Evidence Extraction for Meta-Analysis

Arxiv

0+阅读 · 2月11日

Whose Name Comes Up? Benchmarking and Intervention-Based Auditing of LLM-Based Scholar Recommendation

Arxiv

0+阅读 · 2月9日

How to Correctly Report LLM-as-a-Judge Evaluations

Arxiv

0+阅读 · 2月9日

Overstating Attitudes, Ignoring Networks: LLM Biases in Simulating Misinformation Susceptibility

Arxiv

0+阅读 · 2月4日

EndoExtract: Co-Designing Structured Text Extraction from Endometriosis Ultrasound Reports

Arxiv

0+阅读 · 1月26日

LLM or Human? Perceptions of Trust and Information Quality in Research Summaries

Arxiv

0+阅读 · 1月22日

Why Does the LLM Stop Computing: An Empirical Study of User-Reported Failures in Open-Source LLMs

Arxiv

0+阅读 · 1月20日

Evaluating Large Language Models (LLMs) in Financial NLP: A Comparative Study on Financial Report Analysis

Arxiv

0+阅读 · 1月19日

Evaluating local large language models for structured extraction from endometriosis-specific transvaginal ultrasound reports

Arxiv

0+阅读 · 1月14日

VIP会员

文章信息

相关主题

最新内容

【斯坦福博士论文】语言模型的机械可解释性与控制

【斯坦福博士论文】语言模型的机械可解释性与控制

专知会员服务

0+阅读 · 今天13:13

大语言模型智能体长期记忆安全性综述：迈向记忆主权

大语言模型智能体长期记忆安全性综述：迈向记忆主权

专知会员服务

0+阅读 · 今天13:08

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

专知会员服务

3+阅读 · 今天7:11

人工智能赋能无人机：俄乌战争（万字长文）

人工智能赋能无人机：俄乌战争（万字长文）

专知会员服务

5+阅读 · 今天6:56

国外海军作战管理系统与作战训练系统

国外海军作战管理系统与作战训练系统

专知会员服务

2+阅读 · 今天4:16

美军条令《海军陆战队规划流程（2026版）》

美军条令《海军陆战队规划流程（2026版）》

专知会员服务

10+阅读 · 今天3:36

《压缩式分布式交互仿真标准》120页

《压缩式分布式交互仿真标准》120页

专知会员服务

4+阅读 · 今天3:21

《电子战数据交换模型研究报告》

《电子战数据交换模型研究报告》

专知会员服务

6+阅读 · 今天3:13

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

专知会员服务

4+阅读 · 今天2:55

《基于Transformer的异常舰船导航识别与跟踪》80页

《基于Transformer的异常舰船导航识别与跟踪》80页

专知会员服务

8+阅读 · 今天2:45

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

专知会员服务

6+阅读 · 今天2:41

《低数据领域军事目标检测模型研究》

《低数据领域军事目标检测模型研究》

专知会员服务

6+阅读 · 今天2:37

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

专知会员服务

6+阅读 · 今天2:32

【CMU博士论文】物理世界的视觉感知与深度理解

【CMU博士论文】物理世界的视觉感知与深度理解

专知会员服务

10+阅读 · 4月22日

多智能体系统：从经典范式到大基础模型驱动的未来

多智能体系统：从经典范式到大基础模型驱动的未来

专知会员服务

18+阅读 · 4月22日

相关VIP内容

LLM/智能体作为数据分析师：综述

LLM/智能体作为数据分析师：综述

专知会员服务

38+阅读 · 2025年9月30日

LLM4SR：关于大规模语言模型在科学研究中的应用综述

LLM4SR：关于大规模语言模型在科学研究中的应用综述

专知会员服务

42+阅读 · 2025年1月9日

《LLM 时代小模型的作用》综述

《LLM 时代小模型的作用》综述

专知会员服务

49+阅读 · 2024年9月12日

大型语言模型（LLMs），附Slides与视频

大型语言模型（LLMs），附Slides与视频

专知会员服务

71+阅读 · 2024年6月30日

LLM4Science怎么做？UIUC等最新《科学大型语言模型及其在科学发现中的应用》综述

LLM4Science怎么做？UIUC等最新《科学大型语言模型及其在科学发现中的应用》综述

专知会员服务

35+阅读 · 2024年6月23日

大型语言模型在预测和异常检测中的应用综述

大型语言模型在预测和异常检测中的应用综述

专知会员服务

70+阅读 · 2024年2月19日

【ICLR2024】能检测到LLM产生的错误信息吗？

【ICLR2024】能检测到LLM产生的错误信息吗？

专知会员服务

25+阅读 · 2024年1月23日

【大模型+仿射科学】LLM在放射科学中应用潜力如何？数十家研究机构联合测试了31个大模型

【大模型+仿射科学】LLM在放射科学中应用潜力如何？数十家研究机构联合测试了31个大模型

专知会员服务

24+阅读 · 2023年9月15日

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

专知会员服务

93+阅读 · 2023年6月1日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型智能体长期记忆安全性综述：迈向记忆主权

人工智能赋能无人机：俄乌战争（万字长文）

【斯坦福博士论文】语言模型的机械可解释性与控制

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

EMNLP 2019开源论文：针对短文本分类的异质图注意力网络

EMNLP 2019开源论文：针对短文本分类的异质图注意力网络

PaperWeekly

31+阅读 · 2019年10月22日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

赛尔原创 | EMNLP 2019 基于上下文感知的变分自编码器建模事件背景知识进行If-Then类型常识推理

赛尔原创 | EMNLP 2019 基于上下文感知的变分自编码器建模事件背景知识进行If-Then类型常识推理

哈工大SCIR

17+阅读 · 2019年9月23日

异常检测论文大列表：方法、应用、综述

异常检测论文大列表：方法、应用、综述

专知

126+阅读 · 2019年7月15日

动态可视化指南：一步步拆解LSTM和GRU

动态可视化指南：一步步拆解LSTM和GRU

论智

17+阅读 · 2018年10月25日

论文浅尝 | 嵌入常识知识的注意力 LSTM 模型用于特定目标的基于侧面的情感分析

论文浅尝 | 嵌入常识知识的注意力 LSTM 模型用于特定目标的基于侧面的情感分析

开放知识图谱

28+阅读 · 2018年6月11日

放弃 RNN/LSTM 吧，因为真的不好用！望周知~

放弃 RNN/LSTM 吧，因为真的不好用！望周知~

人工智能头条

19+阅读 · 2018年4月24日

相关论文

ProbeLLM: Automating Principled Diagnosis of LLM Failures

Arxiv

0+阅读 · 2月13日

Diagnosing Structural Failures in LLM-Based Evidence Extraction for Meta-Analysis

Arxiv

0+阅读 · 2月11日

Whose Name Comes Up? Benchmarking and Intervention-Based Auditing of LLM-Based Scholar Recommendation

Arxiv

0+阅读 · 2月9日

How to Correctly Report LLM-as-a-Judge Evaluations

Arxiv

0+阅读 · 2月9日

Overstating Attitudes, Ignoring Networks: LLM Biases in Simulating Misinformation Susceptibility

Arxiv

0+阅读 · 2月4日

EndoExtract: Co-Designing Structured Text Extraction from Endometriosis Ultrasound Reports

Arxiv

0+阅读 · 1月26日

LLM or Human? Perceptions of Trust and Information Quality in Research Summaries

Arxiv

0+阅读 · 1月22日

Why Does the LLM Stop Computing: An Empirical Study of User-Reported Failures in Open-Source LLMs

Arxiv

0+阅读 · 1月20日

Evaluating Large Language Models (LLMs) in Financial NLP: A Comparative Study on Financial Report Analysis

Arxiv

0+阅读 · 1月19日

Evaluating local large language models for structured extraction from endometriosis-specific transvaginal ultrasound reports

Arxiv

0+阅读 · 1月14日

相关基金

删失数据超高维共线性模型的变量选择

国家自然科学基金

0+阅读 · 2017年12月31日

LncRNA介导肿瘤相关巨噬细胞促进乳腺癌转移分子机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

全基因外显子组测序联合功能基因组学探索子宫内膜异位症恶变的驱动基因

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

雌激素诱导骨髓间充质干细胞分化在内异症发生中的作用机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

ESR1经SDF-1/CXCR4轴介导的BMSCs归巢与分化在薄型子宫内膜发病中的作用及分子机制

国家自然科学基金

0+阅读 · 2014年12月31日

高维混合数据异常知识发现的粒计算模型关键问题研究

国家自然科学基金

1+阅读 · 2014年12月31日

miR-449b调控CSFR1影响子宫内膜异位种植的分子机制

国家自然科学基金

0+阅读 · 2014年12月31日

应激在子宫内膜异位症发生发展中的作用

国家自然科学基金

0+阅读 · 2014年12月31日

子宫内膜异位症疼痛的中枢敏化机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员