Canonical Correlation Analysis, CCA, is a widely used multivariate method in omics research for integrating high dimensional datasets. CCA identifies hidden links by deriving linear projections of features maximally correlating datasets. For standard CCA, observations must be independent of each other. As a result, it cannot properly deal with repeated measurements. Current CCA extensions dealing with these challenges either perform CCA on summarized data or estimate correlations for each measurement. While these techniques factor in the correlation between measurements, they are sub-optimal for high dimensional analysis and exploiting this datas longitudinal qualities. We propose a novel extension of sparse CCA that incorporates time dynamics at the latent level through longitudinal models. This approach addresses the correlation of repeated measurements while drawing latent paths, focusing on dynamics in the correlation structures. To aid interpretability and computational efficiency, we implement a penalty to enforce fixed sparsity levels. We estimate these trajectories fitting longitudinal models to the low dimensional latent variables, leveraging the clustered structure of high dimensional datasets, thus exploring shared longitudinal latent mechanisms. Furthermore, modeling time in the latent space significantly reduces computational burden. We validate our models performance using simulated data and show its real world applicability with data from the Human Microbiome Project. Our CCA method for repeated measurements enables efficient estimation of canonical correlations across measurements for clustered data. Compared to existing methods, ours substantially reduces computational time in high dimensional analyses as well as provides longitudinal trajectories that yield interpretable and insightful results.


翻译:典型相关分析(CCA)是组学研究中广泛使用的多变量方法,用于整合高维数据集。CCA通过推导特征的最大相关数据集的线性投影来识别隐藏关联。对于标准CCA,观测值必须相互独立,因此无法正确处理重复测量。当前应对这一挑战的CCA扩展方法要么对汇总数据执行CCA,要么为每次测量估计相关性。虽然这些技术考虑了测量之间的相关性,但对于高维分析和利用数据的纵向特性而言并非最优。我们提出了一种新颖的稀疏CCA扩展方法,通过纵向模型在潜在层面纳入时间动态。该方法在绘制潜在路径的同时处理重复测量的相关性,重点关注相关结构中的动态变化。为提升可解释性和计算效率,我们采用惩罚项来强制固定稀疏度水平。通过将纵向模型拟合到低维潜在变量,我们估计这些轨迹,利用高维数据集的聚类结构,从而探索共享的纵向潜在机制。此外,在潜在空间建模时间显著降低了计算负担。我们使用模拟数据验证了模型的性能,并通过人类微生物组项目的数据展示了其实际应用价值。我们针对重复测量的CCA方法能够有效估计聚类数据跨测量的典型相关性。与现有方法相比,我们的方法大幅减少了高维分析的计算时间,同时提供了可产生可解释且具有洞察力结果的纵向轨迹。

0
下载
关闭预览

相关内容

【ACL2020】多模态信息抽取,365页ppt
专知会员服务
151+阅读 · 2020年7月6日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
利用动态深度学习预测金融时间序列基于Python
量化投资与机器学习
18+阅读 · 2018年10月30日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
论文浅尝 | 利用 RNN 和 CNN 构建基于 FreeBase 的问答系统
开放知识图谱
11+阅读 · 2018年4月25日
Layer Normalization原理及其TensorFlow实现
深度学习每日摘要
32+阅读 · 2017年6月17日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
16+阅读 · 2022年5月17日
Arxiv
18+阅读 · 2021年3月16日
Optimization for deep learning: theory and algorithms
Arxiv
106+阅读 · 2019年12月19日
VIP会员
相关资讯
利用动态深度学习预测金融时间序列基于Python
量化投资与机器学习
18+阅读 · 2018年10月30日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
论文浅尝 | 利用 RNN 和 CNN 构建基于 FreeBase 的问答系统
开放知识图谱
11+阅读 · 2018年4月25日
Layer Normalization原理及其TensorFlow实现
深度学习每日摘要
32+阅读 · 2017年6月17日
相关论文
Arxiv
16+阅读 · 2022年5月17日
Arxiv
18+阅读 · 2021年3月16日
Optimization for deep learning: theory and algorithms
Arxiv
106+阅读 · 2019年12月19日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员