Classical probabilistic graphical models face fundamental challenges in modern data environments, which are characterized by high dimensionality, source heterogeneity, and stringent data-sharing constraints. In this work, we revisit the Ising model, a well-established member of the Markov Random Field (MRF) family, and develop a distributed framework that enables scalable and privacy-preserving representation learning from large-scale binary data with inherent low-rank structure. Our approach optimizes a non-convex surrogate loss function via bi-factored gradient descent, offering substantial computational and communication advantages over conventional convex approaches. We evaluate our algorithm on multi-institutional electronic health record (EHR) datasets from 58,248 patients across the University of Pittsburgh Medical Center (UPMC) and Mass General Brigham (MGB), demonstrating superior performance in global representation learning and downstream clinical tasks, including relationship detection, patient phenotyping, and patient clustering. These results highlight a broader potential for statistical inference in federated, high-dimensional settings while addressing the practical challenges of data complexity and multi-institutional integration.


翻译:经典概率图模型在现代数据环境中面临根本性挑战,这些环境以高维度、来源异构性及严格的数据共享约束为特征。本研究重新审视了马尔可夫随机场家族中的经典模型——伊辛模型,并开发了一种分布式框架,该框架能够从具有内在低秩结构的大规模二值数据中实现可扩展且保护隐私的表示学习。我们的方法通过双因子梯度下降优化非凸代理损失函数,相比传统凸优化方法提供了显著的计算与通信优势。我们在来自匹兹堡大学医学中心和麻省总医院布里格姆分院的58,248名患者的多机构电子健康记录数据集上评估了该算法,结果表明其在全局表示学习及下游临床任务(包括关系检测、患者表型分析和患者聚类)中均表现出优越性能。这些结果凸显了在联邦化高维环境中进行统计推断的更广泛潜力,同时应对了数据复杂性和多机构整合的实际挑战。

0
下载
关闭预览

相关内容

AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员