ReToP: Learning to Rewrite Electronic Health Records for Clinical Prediction - 专知论文

会员服务 ·

0

临床预测 · 健康 · 微调 · 关键信息 · 高维 ·

ReToP: Learning to Rewrite Electronic Health Records for Clinical Prediction

翻译：ReToP：学习重写电子健康记录以进行临床预测

Jesus Lovon-Melgarejo,Jose G. Moreno,Christine Damase-Michel,Lynda Tamine

from arxiv, Accepted by WSDM 2026

Electronic Health Records (EHRs) provide crucial information for clinical decision-making. However, their high-dimensionality, heterogeneity, and sparsity make clinical prediction challenging. Large Language Models (LLMs) allowed progress towards addressing this challenge by leveraging parametric medical knowledge to enhance EHR data for clinical prediction tasks. Despite the significant achievements made so far, most of the existing approaches are fundamentally task-agnostic in the sense that they deploy LLMs as EHR encoders or EHR completion modules without fully integrating signals from the prediction tasks. This naturally hinders task performance accuracy. In this work, we propose Rewrite-To-Predict (ReToP), an LLM-based framework that addresses this limitation through an end-to-end training of an EHR rewriter and a clinical predictor. To cope with the lack of EHR rewrite training data, we generate synthetic pseudo-labels using clinical-driven feature selection strategies to create diverse patient rewrites for fine-tuning the EHR rewriter. ReToP aligns the rewriter with prediction objectives using a novel Classifier Supervised Contribution (CSC) score that enables the EHR rewriter to generate clinically relevant rewrites that directly enhance prediction. Our ReToP framework surpasses strong baseline models across three clinical tasks on MIMIC-IV. Moreover, the analysis of ReToP shows its generalizability to unseen datasets and tasks with minimal fine-tuning while preserving faithful rewrites and emphasizing task-relevant predictive features.

翻译：电子健康记录（EHR）为临床决策提供了关键信息。然而，其高维性、异质性和稀疏性使得临床预测具有挑战性。大型语言模型（LLMs）通过利用参数化医学知识来增强EHR数据以支持临床预测任务，为解决这一挑战带来了进展。尽管目前已取得显著成就，但现有方法大多本质上是任务无关的，即它们将LLMs部署为EHR编码器或EHR补全模块，而未充分整合来自预测任务的信号。这自然限制了任务性能的准确性。在本工作中，我们提出了重写以预测（ReToP），这是一个基于LLM的框架，通过端到端训练EHR重写器和临床预测器来解决这一局限。为应对缺乏EHR重写训练数据的问题，我们采用临床驱动的特征选择策略生成合成伪标签，以创建多样化的患者重写用于微调EHR重写器。ReToP使用一种新颖的分类器监督贡献（CSC）分数将重写器与预测目标对齐，使EHR重写器能够生成直接增强预测的临床相关重写。我们的ReToP框架在MIMIC-IV的三个临床任务上超越了强基线模型。此外，对ReToP的分析表明，其能够以最小微调泛化到未见数据集和任务，同时保持忠实重写并强调任务相关的预测特征。

0

相关内容

临床预测

利用表示学习推动多机构电子健康记录数据研究

利用表示学习推动多机构电子健康记录数据研究

专知会员服务

16+阅读 · 2025年2月17日

【新书】用于医疗保健的大型语言模型和生成式AI：下一片前沿领域

【新书】用于医疗保健的大型语言模型和生成式AI：下一片前沿领域

专知会员服务

53+阅读 · 2024年11月10日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

专知会员服务

98+阅读 · 2023年11月13日

【牛津大学博士论文】面向电子健康记录的深度学习:风险预测、可解释性和不确定性，200页pdf

【牛津大学博士论文】面向电子健康记录的深度学习:风险预测、可解释性和不确定性，200页pdf

专知会员服务

46+阅读 · 2023年7月18日

GPT-4在医学上能力如何？微软OpenAI《GPT-4在医疗难题上的能力》论文

GPT-4在医学上能力如何？微软OpenAI《GPT-4在医疗难题上的能力》论文

专知会员服务

115+阅读 · 2023年3月24日

【巴黎理工博士论文】《面向不规则医疗时间戳数据的基于深度学习的多模态优化方法》2022最新148页博士论文

【巴黎理工博士论文】《面向不规则医疗时间戳数据的基于深度学习的多模态优化方法》2022最新148页博士论文

专知会员服务

35+阅读 · 2022年8月15日

【牛津大学】电子医疗记录的生成式对抗网络:应用、评估措施和数据来源综述，A review of Generative Adversarial Networks for Electronic Health Records: applications, evaluation measures and data sources

【牛津大学】电子医疗记录的生成式对抗网络:应用、评估措施和数据来源综述，A review of Generative Adversarial Networks for Electronic Health Records: applications, evaluation measures and data sources

专知会员服务

24+阅读 · 2022年3月15日

AAAI2022最新「时序数据处理」报告，127页PPT阐述时序数据处理以及医疗应用进展

AAAI2022最新「时序数据处理」报告，127页PPT阐述时序数据处理以及医疗应用进展

专知会员服务

89+阅读 · 2022年3月1日

【斯坦福】从电子病历EHR构建知识图谱，Robustly Extracting Medical Knowledge from EHRs:A Case Study of Learning a Health Knowledge Graph

【斯坦福】从电子病历EHR构建知识图谱，Robustly Extracting Medical Knowledge from EHRs:A Case Study of Learning a Health Knowledge Graph

专知会员服务

56+阅读 · 2020年6月2日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

哈佛大学｜构建知识图谱PrimeKG以实现精准医疗--数据与代码全部公开，帮你从零开始复现知识图谱

哈佛大学｜构建知识图谱PrimeKG以实现精准医疗--数据与代码全部公开，帮你从零开始复现知识图谱

GenomicAI

29+阅读 · 2022年5月4日

《利用多模态移动传感器数据对健康进行建模的机器学习》剑桥大学博士论文

《利用多模态移动传感器数据对健康进行建模的机器学习》剑桥大学博士论文

专知

16+阅读 · 2022年5月3日

【AI与医学】多模态机器学习精准医疗健康

【AI与医学】多模态机器学习精准医疗健康

专知

17+阅读 · 2022年4月25日

联邦学习如何用于医疗？Deakin最新《联邦学习智慧医疗》综述论文全面阐述联邦学习在医疗的应用

联邦学习如何用于医疗？Deakin最新《联邦学习智慧医疗》综述论文全面阐述联邦学习在医疗的应用

专知

14+阅读 · 2021年11月27日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

医疗中的自动机器学习和可解释性

医疗中的自动机器学习和可解释性

专知

24+阅读 · 2019年4月1日

大讲堂 | 基于医疗知识的疾病诊断预测

大讲堂 | 基于医疗知识的疾病诊断预测

AI科技评论

10+阅读 · 2019年1月22日

【智能医疗】【知识图谱】中文电子病历命名实体识别的主动学习方法 | 病历智能分析系统的研究与实现 | 临床路径知识建模研究

【智能医疗】【知识图谱】中文电子病历命名实体识别的主动学习方法 | 病历智能分析系统的研究与实现 | 临床路径知识建模研究

产业智能官

29+阅读 · 2017年12月10日

多视角识别长非编码RNA和人类复杂疾病关联预测研究

国家自然科学基金

4+阅读 · 2017年12月31日

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

面向在线检索的医学影像多特征降维方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向健康管理数据的关联型知识深度挖掘方法研究

国家自然科学基金

12+阅读 · 2015年12月31日

复杂纵向数据的分位回归建模及其在生物医学大数据中的应用

国家自然科学基金

4+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

医疗健康网站信息可信度与质量控制研究

国家自然科学基金

0+阅读 · 2014年12月31日

故障预测和系统健康管理的贝叶斯推断

国家自然科学基金

22+阅读 · 2014年12月31日

云平台中可优化分析操作的海量医学图像存储管理技术

国家自然科学基金

0+阅读 · 2014年12月31日

社会化媒体环境下电子健康知识挖掘研究

国家自然科学基金

0+阅读 · 2014年12月31日

DistillNote: Toward a Functional Evaluation Framework of LLM-Generated Clinical Note Summaries

DistillNote: Toward a Functional Evaluation Framework of LLM-Generated Clinical Note Summaries

Arxiv

0+阅读 · 2月19日

MedClarify: An information-seeking AI agent for medical diagnosis with case-specific follow-up questions

Arxiv

0+阅读 · 2月19日

TRACE: Temporal Reasoning via Agentic Context Evolution for Streaming Electronic Health Records (EHRs)

Arxiv

0+阅读 · 2月13日

GRAIL: Geometry-Aware Retrieval-Augmented Inference with LLMs over Hyperbolic Representations of Patient Trajectories

Arxiv

0+阅读 · 2月13日

Reliable Curation of EHR Dataset via Large Language Models under Environmental Constraints

Arxiv

0+阅读 · 2月12日

Efficient Variance-reduced Estimation from Generative EHR Models: The SCOPE and REACH Estimators

Arxiv

0+阅读 · 2月3日

From Generative Modeling to Clinical Classification: A GPT-Based Architecture for EHR Notes

Arxiv

0+阅读 · 2月3日

UniPACT: A Multimodal Framework for Prognostic Question Answering on Raw ECG and Structured EHR

Arxiv

0+阅读 · 1月25日

Dr. Assistant: Enhancing Clinical Diagnostic Inquiry via Structured Diagnostic Reasoning Data and Reinforcement Learning

Arxiv

0+阅读 · 1月20日

CURE-Med: Curriculum-Informed Reinforcement Learning for Multilingual Medical Reasoning

Arxiv

0+阅读 · 1月19日

VIP会员

文章信息

相关主题

最新内容

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

4+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

5+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

4+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

2+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

5+阅读 · 7月17日

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

2+阅读 · 7月17日

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

3+阅读 · 7月17日

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

专知会员服务

11+阅读 · 7月16日

《无人地面战车（UGV）的崛起》报告

《无人地面战车（UGV）的崛起》报告

专知会员服务

7+阅读 · 7月16日

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

专知会员服务

6+阅读 · 7月16日

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

专知会员服务

13+阅读 · 7月16日

美陆军任务式指挥人工智能解决方案

美陆军任务式指挥人工智能解决方案

专知会员服务

13+阅读 · 7月16日

ICML 2026 | 理论级自动形式化：从孤立命题到统一形式化知识库

ICML 2026 | 理论级自动形式化：从孤立命题到统一形式化知识库

专知会员服务

9+阅读 · 7月16日

综述 | 现代智能体自我改进，从模型更新到脚手架演化

综述 | 现代智能体自我改进，从模型更新到脚手架演化

专知会员服务

16+阅读 · 7月16日

美国陆军宣布“项目融合-顶点6”：现代化进程的关键里程碑

美国陆军宣布“项目融合-顶点6”：现代化进程的关键里程碑

专知会员服务

13+阅读 · 7月15日

相关VIP内容

利用表示学习推动多机构电子健康记录数据研究

利用表示学习推动多机构电子健康记录数据研究

专知会员服务

16+阅读 · 2025年2月17日

【新书】用于医疗保健的大型语言模型和生成式AI：下一片前沿领域

【新书】用于医疗保健的大型语言模型和生成式AI：下一片前沿领域

专知会员服务

53+阅读 · 2024年11月10日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

专知会员服务

98+阅读 · 2023年11月13日

【牛津大学博士论文】面向电子健康记录的深度学习:风险预测、可解释性和不确定性，200页pdf

【牛津大学博士论文】面向电子健康记录的深度学习:风险预测、可解释性和不确定性，200页pdf

专知会员服务

46+阅读 · 2023年7月18日

GPT-4在医学上能力如何？微软OpenAI《GPT-4在医疗难题上的能力》论文

GPT-4在医学上能力如何？微软OpenAI《GPT-4在医疗难题上的能力》论文

专知会员服务

115+阅读 · 2023年3月24日

【巴黎理工博士论文】《面向不规则医疗时间戳数据的基于深度学习的多模态优化方法》2022最新148页博士论文

【巴黎理工博士论文】《面向不规则医疗时间戳数据的基于深度学习的多模态优化方法》2022最新148页博士论文

专知会员服务

35+阅读 · 2022年8月15日

【牛津大学】电子医疗记录的生成式对抗网络:应用、评估措施和数据来源综述，A review of Generative Adversarial Networks for Electronic Health Records: applications, evaluation measures and data sources

【牛津大学】电子医疗记录的生成式对抗网络:应用、评估措施和数据来源综述，A review of Generative Adversarial Networks for Electronic Health Records: applications, evaluation measures and data sources

专知会员服务

24+阅读 · 2022年3月15日

AAAI2022最新「时序数据处理」报告，127页PPT阐述时序数据处理以及医疗应用进展

AAAI2022最新「时序数据处理」报告，127页PPT阐述时序数据处理以及医疗应用进展

专知会员服务

89+阅读 · 2022年3月1日

【斯坦福】从电子病历EHR构建知识图谱，Robustly Extracting Medical Knowledge from EHRs:A Case Study of Learning a Health Knowledge Graph

【斯坦福】从电子病历EHR构建知识图谱，Robustly Extracting Medical Knowledge from EHRs:A Case Study of Learning a Health Knowledge Graph

专知会员服务

56+阅读 · 2020年6月2日

热门VIP内容

开通专知VIP会员享更多权益服务

《边缘端实时无线感知赋能现场多机器人部署》200页

人工智能赋能战场情报：提速决策进程

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

战力倍增器：自主武器系统与乌克兰及加沙冲突

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

哈佛大学｜构建知识图谱PrimeKG以实现精准医疗--数据与代码全部公开，帮你从零开始复现知识图谱

哈佛大学｜构建知识图谱PrimeKG以实现精准医疗--数据与代码全部公开，帮你从零开始复现知识图谱

GenomicAI

29+阅读 · 2022年5月4日

《利用多模态移动传感器数据对健康进行建模的机器学习》剑桥大学博士论文

《利用多模态移动传感器数据对健康进行建模的机器学习》剑桥大学博士论文

专知

16+阅读 · 2022年5月3日

【AI与医学】多模态机器学习精准医疗健康

【AI与医学】多模态机器学习精准医疗健康

专知

17+阅读 · 2022年4月25日

联邦学习如何用于医疗？Deakin最新《联邦学习智慧医疗》综述论文全面阐述联邦学习在医疗的应用

联邦学习如何用于医疗？Deakin最新《联邦学习智慧医疗》综述论文全面阐述联邦学习在医疗的应用

专知

14+阅读 · 2021年11月27日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

医疗中的自动机器学习和可解释性

医疗中的自动机器学习和可解释性

专知

24+阅读 · 2019年4月1日

大讲堂 | 基于医疗知识的疾病诊断预测

大讲堂 | 基于医疗知识的疾病诊断预测

AI科技评论

10+阅读 · 2019年1月22日

【智能医疗】【知识图谱】中文电子病历命名实体识别的主动学习方法 | 病历智能分析系统的研究与实现 | 临床路径知识建模研究

【智能医疗】【知识图谱】中文电子病历命名实体识别的主动学习方法 | 病历智能分析系统的研究与实现 | 临床路径知识建模研究

产业智能官

29+阅读 · 2017年12月10日

相关论文

DistillNote: Toward a Functional Evaluation Framework of LLM-Generated Clinical Note Summaries

DistillNote: Toward a Functional Evaluation Framework of LLM-Generated Clinical Note Summaries

Arxiv

0+阅读 · 2月19日

MedClarify: An information-seeking AI agent for medical diagnosis with case-specific follow-up questions

Arxiv

0+阅读 · 2月19日

TRACE: Temporal Reasoning via Agentic Context Evolution for Streaming Electronic Health Records (EHRs)

Arxiv

0+阅读 · 2月13日

GRAIL: Geometry-Aware Retrieval-Augmented Inference with LLMs over Hyperbolic Representations of Patient Trajectories

Arxiv

0+阅读 · 2月13日

Reliable Curation of EHR Dataset via Large Language Models under Environmental Constraints

Arxiv

0+阅读 · 2月12日

Efficient Variance-reduced Estimation from Generative EHR Models: The SCOPE and REACH Estimators

Arxiv

0+阅读 · 2月3日

From Generative Modeling to Clinical Classification: A GPT-Based Architecture for EHR Notes

Arxiv

0+阅读 · 2月3日

UniPACT: A Multimodal Framework for Prognostic Question Answering on Raw ECG and Structured EHR

Arxiv

0+阅读 · 1月25日

Dr. Assistant: Enhancing Clinical Diagnostic Inquiry via Structured Diagnostic Reasoning Data and Reinforcement Learning

Arxiv

0+阅读 · 1月20日

CURE-Med: Curriculum-Informed Reinforcement Learning for Multilingual Medical Reasoning

Arxiv

0+阅读 · 1月19日

相关基金

多视角识别长非编码RNA和人类复杂疾病关联预测研究

国家自然科学基金

4+阅读 · 2017年12月31日

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

面向在线检索的医学影像多特征降维方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向健康管理数据的关联型知识深度挖掘方法研究

国家自然科学基金

12+阅读 · 2015年12月31日

复杂纵向数据的分位回归建模及其在生物医学大数据中的应用

国家自然科学基金

4+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

医疗健康网站信息可信度与质量控制研究

国家自然科学基金

0+阅读 · 2014年12月31日

故障预测和系统健康管理的贝叶斯推断

国家自然科学基金

22+阅读 · 2014年12月31日

云平台中可优化分析操作的海量医学图像存储管理技术

国家自然科学基金

0+阅读 · 2014年12月31日

社会化媒体环境下电子健康知识挖掘研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员