Clinical machine learning models are increasingly trained using large scale, multimodal foundation paradigms, yet deployment environments often differ systematically from the data generating settings used during training. Such shifts arise from heterogeneous measurement policies, documentation practices, and institutional workflows, leading to representation entanglement between physiologic signal and practice specific artifacts. In this work, we propose a practice invariant representation learning framework for multimodal clinical prediction. We model clinical observations as arising from latent physiologic factors and environment dependent processes, and introduce an objective that jointly optimizes predictive performance while suppressing environment predictive information in the learned embedding. Concretely, we combine supervised risk minimization with adversarial environment regularization and invariant risk penalties across hospitals. Across multiple longitudinal EHR prediction tasks and cross institution evaluations, our method improves out of distribution AUROC by up to 2 to 3 points relative to masked pretraining and standard supervised baselines, while maintaining in distribution performance and improving calibration. These results demonstrate that explicitly accounting for systematic distribution shift during representation learning yields more robust and transferable clinical models, highlighting the importance of structural invariance alongside architectural scale in healthcare AI.


翻译:临床机器学习模型越来越多地采用大规模多模态基础范式进行训练,然而部署环境往往与训练时的数据生成环境存在系统性差异。此类偏移源于异构的测量策略、记录实践和机构工作流程,导致生理信号与特定实践伪影之间的表征纠缠。本研究提出一种用于多模态临床预测的实践不变表征学习框架。我们将临床观测建模为源自潜在生理因素与环境依赖过程的产物,并引入一种目标函数,在优化预测性能的同时抑制所学嵌入中可预测环境的信息。具体而言,我们将监督风险最小化与对抗性环境正则化及跨医院不变风险惩罚相结合。在多个纵向电子健康记录预测任务和跨机构评估中,相较于掩码预训练和标准监督基线,我们的方法将分布外AUROC提升了2至3个百分点,同时保持了分布内性能并改善了校准度。这些结果表明,在表征学习过程中显式考虑系统性分布偏移能够产生更稳健、可迁移的临床模型,凸显了在医疗人工智能中结构不变性与架构规模同等重要。

0
下载
关闭预览

相关内容

【CMU博士论文】语境:表征学习的机制
专知会员服务
19+阅读 · 2025年4月29日
不平衡数据学习的全面综述
专知会员服务
44+阅读 · 2025年2月15日
【MIT博士论文】异构医疗数据表示学习,193页pdf
专知会员服务
60+阅读 · 2022年9月3日
【国防科大】复杂异构数据的表征学习综述
专知会员服务
86+阅读 · 2020年4月23日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
深度多模态表示学习综述论文,22页pdf
专知
33+阅读 · 2020年6月21日
迁移自适应学习最新综述,附21页论文下载
迁移学习在深度学习中的应用
专知
24+阅读 · 2017年12月24日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
VIP会员
最新内容
《新兴技术武器化及其对全球风险的影响》
专知会员服务
7+阅读 · 4月29日
《帕兰泰尔平台介绍:信息分析平台》
专知会员服务
17+阅读 · 4月29日
智能体化世界建模:基础、能力、规律及展望
专知会员服务
11+阅读 · 4月28日
美海警海上态势感知无人系统
专知会员服务
6+阅读 · 4月28日
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员