Bridging the Domain Divide: Supervised vs. Zero-Shot Clinical Section Segmentation from MIMIC-III to Obstetrics - 专知论文

会员服务 ·

0

分割 · 监督 · 样本 · 零样本 · 语料 ·

Bridging the Domain Divide: Supervised vs. Zero-Shot Clinical Section Segmentation from MIMIC-III to Obstetrics

翻译：弥合领域鸿沟：从MIMIC-III到产科数据的临床章节分割——监督学习与零样本方法对比

Baris Karacan,Barbara Di Eugenio,Patrick Thornton

from arxiv, 11 pages. Accepted at LREC 2026. To appear in the proceedings

Clinical free-text notes contain vital patient information. They are structured into labelled sections; recognizing these sections has been shown to support clinical decision-making and downstream NLP tasks. In this paper, we advance clinical section segmentation through three key contributions. First, we curate a new de-identified, section-labeled obstetrics notes dataset, to supplement the medical domains covered in public corpora such as MIMIC-III, on which most existing segmentation approaches are trained. Second, we systematically evaluate transformer-based supervised models for section segmentation on a curated subset of MIMIC-III (in-domain), and on the new obstetrics dataset (out-of-domain). Third, we conduct the first head-to-head comparison of supervised models for medical section segmentation with zero-shot large language models. Our results show that while supervised models perform strongly in-domain, their performance drops substantially out-of-domain. In contrast, zero-shot models demonstrate robust out-of-domain adaptability once hallucinated section headers are corrected. These findings underscore the importance of developing domain-specific clinical resources and highlight zero-shot segmentation as a promising direction for applying healthcare NLP beyond well-studied corpora, as long as hallucinations are appropriately managed.

翻译：临床自由文本记录包含关键的患者信息。这些记录被组织成带有标签的章节；识别这些章节已被证明能够支持临床决策和下游自然语言处理任务。本文通过三项关键贡献推进临床章节分割研究。首先，我们整理了一个新的去标识化、带章节标签的产科记录数据集，以补充如MIMIC-III等现有公开语料库所覆盖的医学领域——当前大多数分割方法均基于此类语料库进行训练。其次，我们在精心筛选的MIMIC-III子集（领域内）及新的产科数据集（领域外）上，系统评估了基于Transformer的监督模型在章节分割任务上的表现。第三，我们首次对医疗章节分割的监督模型与零样本大语言模型进行了直接比较。结果表明，尽管监督模型在领域内表现优异，但其在领域外的性能显著下降。相比之下，零样本模型在纠正幻觉生成的章节标题后，展现出强大的领域外适应能力。这些发现强调了开发领域特异性临床资源的重要性，并指出只要妥善处理幻觉问题，零样本分割是将医疗自然语言处理技术应用于已充分研究语料库之外领域的一个有前景的方向。

0

相关内容

【MIT博士论文】利用深度学习改进医学影像分割，165页pdf

【MIT博士论文】利用深度学习改进医学影像分割，165页pdf

专知会员服务

28+阅读 · 2023年8月15日

港科大最新《深度学习医学图像分割MedISeg》综述论文，21页pdf涵盖212篇文献阐述MedISeg技巧、挑战和未来方向

港科大最新《深度学习医学图像分割MedISeg》综述论文，21页pdf涵盖212篇文献阐述MedISeg技巧、挑战和未来方向

专知会员服务

42+阅读 · 2022年9月22日

新加坡国立最新《Transformer医学图像分析》综述，33页pdf概述医学图像分类分割技术

新加坡国立最新《Transformer医学图像分析》综述，33页pdf概述医学图像分类分割技术

专知会员服务

95+阅读 · 2022年8月16日

【巴黎理工博士论文】《面向不规则医疗时间戳数据的基于深度学习的多模态优化方法》2022最新148页博士论文

【巴黎理工博士论文】《面向不规则医疗时间戳数据的基于深度学习的多模态优化方法》2022最新148页博士论文

专知会员服务

35+阅读 · 2022年8月15日

北航等最新《深度半监督学习医学图像分割》综述，16页pdf阐述医学图像分割的半监督学习方法体系

北航等最新《深度半监督学习医学图像分割》综述，16页pdf阐述医学图像分割的半监督学习方法体系

专知会员服务

64+阅读 · 2022年8月2日

上海交大最新《标签高效深度分割》研究进展综述，全面阐述无监督、粗监督、不完全监督和噪声监督的深度分割方法

上海交大最新《标签高效深度分割》研究进展综述，全面阐述无监督、粗监督、不完全监督和噪声监督的深度分割方法

专知会员服务

42+阅读 · 2022年7月7日

【CVPR 2022-UCSD&英伟达】GroupViT:从文本监督中产生语义分割，Semantic Segmentation Emerges from Text Supervision

【CVPR 2022-UCSD&英伟达】GroupViT:从文本监督中产生语义分割，Semantic Segmentation Emerges from Text Supervision

专知会员服务

12+阅读 · 2022年3月9日

【Snapchat-谷歌-微软】最新《深度学习文本分类》2020综述论文大全，150+DL分类模型，42页pdf215篇参考文献

【Snapchat-谷歌-微软】最新《深度学习文本分类》2020综述论文大全，150+DL分类模型，42页pdf215篇参考文献

专知会员服务

84+阅读 · 2020年4月9日

【图像分割| 2019最新综述】自然图像和医学图像的深层语义分割，附21页PDF（Deep Semantic Segmentation of Natural and Medical Images: A Review）

【图像分割| 2019最新综述】自然图像和医学图像的深层语义分割，附21页PDF（Deep Semantic Segmentation of Natural and Medical Images: A Review）

专知会员服务

54+阅读 · 2019年11月16日

【AAAI2020论文】概念结构化嵌入医疗文本表示（Learning Conceptual-Contextual Embeddings for Medical Text）

【AAAI2020论文】概念结构化嵌入医疗文本表示（Learning Conceptual-Contextual Embeddings for Medical Text）

专知会员服务

50+阅读 · 2019年11月15日

《文本分类大综述：从浅层到深度学习》最新2020版35页pdf

《文本分类大综述：从浅层到深度学习》最新2020版35页pdf

专知

59+阅读 · 2020年8月6日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

专知

72+阅读 · 2020年2月29日

近期必读的7篇【医学图像分割】相关论文和代码（CVPR、AAAI）

近期必读的7篇【医学图像分割】相关论文和代码（CVPR、AAAI）

专知

81+阅读 · 2019年4月30日

NLP基础任务:文本分类近年发展汇总,68页超详细解析

NLP基础任务:文本分类近年发展汇总,68页超详细解析

专知

167+阅读 · 2019年4月18日

小样本学习（Few-shot Learning）综述

小样本学习（Few-shot Learning）综述

机器之心

18+阅读 · 2019年4月1日

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

专知

127+阅读 · 2019年3月31日

【GitHub项目推荐】文本分类最好的几个深度学习方法 TensorFlow 实践

【GitHub项目推荐】文本分类最好的几个深度学习方法 TensorFlow 实践

专知

39+阅读 · 2018年11月27日

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

深度学习与NLP

25+阅读 · 2018年7月18日

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

机器学习算法与Python学习

10+阅读 · 2018年5月28日

【智能医疗】【知识图谱】中文电子病历命名实体识别的主动学习方法 | 病历智能分析系统的研究与实现 | 临床路径知识建模研究

【智能医疗】【知识图谱】中文电子病历命名实体识别的主动学习方法 | 病历智能分析系统的研究与实现 | 临床路径知识建模研究

产业智能官

29+阅读 · 2017年12月10日

多视角识别长非编码RNA和人类复杂疾病关联预测研究

国家自然科学基金

4+阅读 · 2017年12月31日

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

基于多关联数据融合的疾病相似度算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于弱监督学习的细粒度中医临床医学实体识别方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向健康管理数据的关联型知识深度挖掘方法研究

国家自然科学基金

12+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于EHR结构模型和DCM的医学术语协同化方法研究

国家自然科学基金

4+阅读 · 2014年12月31日

劣者淘汰两阶段自适应临床试验的设计和分析

国家自然科学基金

0+阅读 · 2014年12月31日

Interpreting Contrastive Embeddings in Specific Domains with Fuzzy Rules

Arxiv

0+阅读 · 3月12日

BTZSC: A Benchmark for Zero-Shot Text Classification Across Cross-Encoders, Embedding Models, Rerankers and LLMs

Arxiv

0+阅读 · 3月12日

Semi-Supervised Biomedical Image Segmentation via Diffusion Models and Teacher-Student Co-Training

Arxiv

0+阅读 · 3月10日

CLoPA: Continual Low Parameter Adaptation of Interactive Segmentation for Medical Image Annotation

Arxiv

0+阅读 · 3月6日

Retrieve and Segment: Are a Few Examples Enough to Bridge the Supervision Gap in Open-Vocabulary Segmentation?

Arxiv

0+阅读 · 2月26日

DistillNote: Toward a Functional Evaluation Framework of LLM-Generated Clinical Note Summaries

DistillNote: Toward a Functional Evaluation Framework of LLM-Generated Clinical Note Summaries

Arxiv

0+阅读 · 2月19日

SegNSP: Revisiting Next Sentence Prediction for Linear Text Segmentation

Arxiv

0+阅读 · 2月11日

Closing Reasoning Gaps in Clinical Agents with Differential Reasoning Learning

Arxiv

0+阅读 · 2月10日

Beyond Transcripts: A Renewed Perspective on Audio Chaptering

Arxiv

0+阅读 · 2月9日

From Cold Start to Active Learning: Embedding-Based Scan Selection for Medical Image Segmentation

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

2025年大语言模型进展报告

2025年大语言模型进展报告

专知会员服务

3+阅读 · 4月25日

多智能体协作机制

多智能体协作机制

专知会员服务

3+阅读 · 4月25日

非对称优势：美海军开发低成本反无人机技术

非对称优势：美海军开发低成本反无人机技术

专知会员服务

5+阅读 · 4月25日

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

专知会员服务

15+阅读 · 4月25日

《美战争部小企业创新研究（SBIR）计划》

《美战争部小企业创新研究（SBIR）计划》

专知会员服务

6+阅读 · 4月25日

《军事模拟：将军事条令与目标融入AI智能体》

《军事模拟：将军事条令与目标融入AI智能体》

专知会员服务

9+阅读 · 4月25日

【NTU博士论文】3D人体动作生成

【NTU博士论文】3D人体动作生成

专知会员服务

7+阅读 · 4月24日

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

专知会员服务

9+阅读 · 4月24日

以色列军事技术对美国军力发展的持续性赋能

以色列军事技术对美国军力发展的持续性赋能

专知会员服务

8+阅读 · 4月24日

战场之外的较量：美伊冲突中的认知战与心理博弈

战场之外的较量：美伊冲突中的认知战与心理博弈

专知会员服务

6+阅读 · 4月24日

俄乌战争中乌克兰防空能力演变与见解（中文版）

俄乌战争中乌克兰防空能力演变与见解（中文版）

专知会员服务

7+阅读 · 4月24日

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

专知会员服务

10+阅读 · 4月24日

《深度强化学习在兵棋推演中的应用》40页报告

《深度强化学习在兵棋推演中的应用》40页报告

专知会员服务

14+阅读 · 4月24日

《多域作战面临复杂现实》

《多域作战面临复杂现实》

专知会员服务

10+阅读 · 4月24日

《印度的多域作战：条令与能力发展》报告

《印度的多域作战：条令与能力发展》报告

专知会员服务

5+阅读 · 4月24日

相关VIP内容

【MIT博士论文】利用深度学习改进医学影像分割，165页pdf

【MIT博士论文】利用深度学习改进医学影像分割，165页pdf

专知会员服务

28+阅读 · 2023年8月15日

港科大最新《深度学习医学图像分割MedISeg》综述论文，21页pdf涵盖212篇文献阐述MedISeg技巧、挑战和未来方向

港科大最新《深度学习医学图像分割MedISeg》综述论文，21页pdf涵盖212篇文献阐述MedISeg技巧、挑战和未来方向

专知会员服务

42+阅读 · 2022年9月22日

新加坡国立最新《Transformer医学图像分析》综述，33页pdf概述医学图像分类分割技术

新加坡国立最新《Transformer医学图像分析》综述，33页pdf概述医学图像分类分割技术

专知会员服务

95+阅读 · 2022年8月16日

【巴黎理工博士论文】《面向不规则医疗时间戳数据的基于深度学习的多模态优化方法》2022最新148页博士论文

【巴黎理工博士论文】《面向不规则医疗时间戳数据的基于深度学习的多模态优化方法》2022最新148页博士论文

专知会员服务

35+阅读 · 2022年8月15日

北航等最新《深度半监督学习医学图像分割》综述，16页pdf阐述医学图像分割的半监督学习方法体系

北航等最新《深度半监督学习医学图像分割》综述，16页pdf阐述医学图像分割的半监督学习方法体系

专知会员服务

64+阅读 · 2022年8月2日

上海交大最新《标签高效深度分割》研究进展综述，全面阐述无监督、粗监督、不完全监督和噪声监督的深度分割方法

上海交大最新《标签高效深度分割》研究进展综述，全面阐述无监督、粗监督、不完全监督和噪声监督的深度分割方法

专知会员服务

42+阅读 · 2022年7月7日

【CVPR 2022-UCSD&英伟达】GroupViT:从文本监督中产生语义分割，Semantic Segmentation Emerges from Text Supervision

【CVPR 2022-UCSD&英伟达】GroupViT:从文本监督中产生语义分割，Semantic Segmentation Emerges from Text Supervision

专知会员服务

12+阅读 · 2022年3月9日

【Snapchat-谷歌-微软】最新《深度学习文本分类》2020综述论文大全，150+DL分类模型，42页pdf215篇参考文献

【Snapchat-谷歌-微软】最新《深度学习文本分类》2020综述论文大全，150+DL分类模型，42页pdf215篇参考文献

专知会员服务

84+阅读 · 2020年4月9日

【图像分割| 2019最新综述】自然图像和医学图像的深层语义分割，附21页PDF（Deep Semantic Segmentation of Natural and Medical Images: A Review）

【图像分割| 2019最新综述】自然图像和医学图像的深层语义分割，附21页PDF（Deep Semantic Segmentation of Natural and Medical Images: A Review）

专知会员服务

54+阅读 · 2019年11月16日

【AAAI2020论文】概念结构化嵌入医疗文本表示（Learning Conceptual-Contextual Embeddings for Medical Text）

【AAAI2020论文】概念结构化嵌入医疗文本表示（Learning Conceptual-Contextual Embeddings for Medical Text）

专知会员服务

50+阅读 · 2019年11月15日

热门VIP内容

开通专知VIP会员享更多权益服务

多智能体协作机制

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

2025年大语言模型进展报告

非对称优势：美海军开发低成本反无人机技术

相关资讯

《文本分类大综述：从浅层到深度学习》最新2020版35页pdf

《文本分类大综述：从浅层到深度学习》最新2020版35页pdf

专知

59+阅读 · 2020年8月6日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

专知

72+阅读 · 2020年2月29日

近期必读的7篇【医学图像分割】相关论文和代码（CVPR、AAAI）

近期必读的7篇【医学图像分割】相关论文和代码（CVPR、AAAI）

专知

81+阅读 · 2019年4月30日

NLP基础任务:文本分类近年发展汇总,68页超详细解析

NLP基础任务:文本分类近年发展汇总,68页超详细解析

专知

167+阅读 · 2019年4月18日

小样本学习（Few-shot Learning）综述

小样本学习（Few-shot Learning）综述

机器之心

18+阅读 · 2019年4月1日

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

专知

127+阅读 · 2019年3月31日

【GitHub项目推荐】文本分类最好的几个深度学习方法 TensorFlow 实践

【GitHub项目推荐】文本分类最好的几个深度学习方法 TensorFlow 实践

专知

39+阅读 · 2018年11月27日

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

深度学习与NLP

25+阅读 · 2018年7月18日

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

机器学习算法与Python学习

10+阅读 · 2018年5月28日

【智能医疗】【知识图谱】中文电子病历命名实体识别的主动学习方法 | 病历智能分析系统的研究与实现 | 临床路径知识建模研究

【智能医疗】【知识图谱】中文电子病历命名实体识别的主动学习方法 | 病历智能分析系统的研究与实现 | 临床路径知识建模研究

产业智能官

29+阅读 · 2017年12月10日

相关论文

Interpreting Contrastive Embeddings in Specific Domains with Fuzzy Rules

Arxiv

0+阅读 · 3月12日

BTZSC: A Benchmark for Zero-Shot Text Classification Across Cross-Encoders, Embedding Models, Rerankers and LLMs

Arxiv

0+阅读 · 3月12日

Semi-Supervised Biomedical Image Segmentation via Diffusion Models and Teacher-Student Co-Training

Arxiv

0+阅读 · 3月10日

CLoPA: Continual Low Parameter Adaptation of Interactive Segmentation for Medical Image Annotation

Arxiv

0+阅读 · 3月6日

Retrieve and Segment: Are a Few Examples Enough to Bridge the Supervision Gap in Open-Vocabulary Segmentation?

Arxiv

0+阅读 · 2月26日

DistillNote: Toward a Functional Evaluation Framework of LLM-Generated Clinical Note Summaries

DistillNote: Toward a Functional Evaluation Framework of LLM-Generated Clinical Note Summaries

Arxiv

0+阅读 · 2月19日

SegNSP: Revisiting Next Sentence Prediction for Linear Text Segmentation

Arxiv

0+阅读 · 2月11日

Closing Reasoning Gaps in Clinical Agents with Differential Reasoning Learning

Arxiv

0+阅读 · 2月10日

Beyond Transcripts: A Renewed Perspective on Audio Chaptering

Arxiv

0+阅读 · 2月9日

From Cold Start to Active Learning: Embedding-Based Scan Selection for Medical Image Segmentation

Arxiv

0+阅读 · 1月30日

相关基金

多视角识别长非编码RNA和人类复杂疾病关联预测研究

国家自然科学基金

4+阅读 · 2017年12月31日

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

基于多关联数据融合的疾病相似度算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于弱监督学习的细粒度中医临床医学实体识别方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向健康管理数据的关联型知识深度挖掘方法研究

国家自然科学基金

12+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于EHR结构模型和DCM的医学术语协同化方法研究

国家自然科学基金

4+阅读 · 2014年12月31日

劣者淘汰两阶段自适应临床试验的设计和分析

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员