Representation Learning with Blockwise Missingness and Signal Heterogeneity - 专知论文

会员服务 ·

0

异质 · 异质性 · 表示 · 投影 · 表示学习 ·

Representation Learning with Blockwise Missingness and Signal Heterogeneity

翻译：基于块缺失与信号异质性的表示学习

Ziqi Liu,Ye Tian,Weijing Tang

Unified representation learning for multi-source data integration faces two important challenges: blockwise missingness and blockwise signal heterogeneity. The former arises from sources observing different, yet potentially overlapping, feature sets, while the latter involves varying signal strengths across subject groups and feature sets. While existing methods perform well with fully observed data or uniform signal strength, their performance degenerates when these two challenges coincide, which is common in practice. To address this, we propose Anchor Projected Principal Component Analysis (APPCA), a general framework for representation learning with structured blockwise missingness that is robust to signal heterogeneity. APPCA first recovers robust group-specific column spaces using all observed feature sets, and then aligns them by projecting shared "anchor" features onto these subspaces before performing PCA. This projection step induces a significant denoising effect. We establish estimation error bounds for embedding reconstruction through a fine-grained perturbation analysis. In particular, using a novel spectral slicing technique, our bound eliminates the standard dependency on the signal strength of subject embeddings, relying instead solely on the signal strength of integrated feature sets. We validate the proposed method through extensive simulation studies and an application to multimodal single-cell sequencing data.

翻译：多源数据整合的统一表示学习面临两大挑战：块缺失与块信号异质性。前者源于不同数据源观测到可能重叠但非完全一致的特征集合，后者则涉及不同样本组与特征集合间信号强度的差异。现有方法在数据完全可观测或信号强度均匀时表现良好，但当这两种挑战同时出现时——这在实践中十分常见——其性能会显著下降。为解决这一问题，我们提出锚点投影主成分分析（APPCA），这是一个针对结构化块缺失的表示学习通用框架，对信号异质性具有鲁棒性。APPCA首先利用所有可观测特征集合恢复鲁棒的组特异性列空间，然后通过将共享的“锚点”特征投影到这些子空间中进行对齐，最后执行PCA。该投影步骤能产生显著的降噪效果。我们通过细粒度扰动分析建立了嵌入重构的估计误差界。特别地，借助新颖的谱切片技术，我们的误差界消除了传统方法对样本嵌入信号强度的依赖，转而仅依赖于整合后特征集合的信号强度。我们通过大量模拟研究及在多模态单细胞测序数据上的应用验证了所提方法的有效性。

0

相关内容

【剑桥大学博士论文】基于注意力的图表示学习

【剑桥大学博士论文】基于注意力的图表示学习

专知会员服务

25+阅读 · 2025年11月3日

【AAAI2025】利用大型语言模型引导异构图表示学习：一种通用方法

【AAAI2025】利用大型语言模型引导异构图表示学习：一种通用方法

专知会员服务

25+阅读 · 2024年12月12日

【MIT博士论文】异构医疗数据表示学习，193页pdf

【MIT博士论文】异构医疗数据表示学习，193页pdf

专知会员服务

61+阅读 · 2022年9月3日

【ICML2022】几何多模态对比表示学习

【ICML2022】几何多模态对比表示学习

专知会员服务

45+阅读 · 2022年7月17日

【AAAI2022】不确定性感知的多视角表示学习

【AAAI2022】不确定性感知的多视角表示学习

专知会员服务

47+阅读 · 2022年1月25日

异质网络表示学习综述论文

专知会员服务

38+阅读 · 2021年8月2日

异质信息网络分析与应用综述，软件学报-北京邮电大学

异质信息网络分析与应用综述，软件学报-北京邮电大学

专知会员服务

64+阅读 · 2020年7月9日

【国防科大】复杂异构数据的表征学习综述

【国防科大】复杂异构数据的表征学习综述

专知会员服务

86+阅读 · 2020年4月23日

【CVPR2020-亚马逊】后向兼容表示学习，BackwardCompatible RepresentationLearning

【CVPR2020-亚马逊】后向兼容表示学习，BackwardCompatible RepresentationLearning

专知会员服务

13+阅读 · 2020年3月27日

异质信息网络的表示学习与应用，北京邮电大学计算机学院石川教授，SMP 2019 前沿技术讲习班第十五期（CIPS ATT 15）

异质信息网络的表示学习与应用，北京邮电大学计算机学院石川教授，SMP 2019 前沿技术讲习班第十五期（CIPS ATT 15）

专知会员服务

28+阅读 · 2019年10月23日

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

专知

11+阅读 · 2022年12月1日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

华为分享异质图表示学习（异质图神经网络）

华为分享异质图表示学习（异质图神经网络）

图与推荐

14+阅读 · 2020年9月10日

综述 | 异质信息网络分析与应用综述

综述 | 异质信息网络分析与应用综述

专知

27+阅读 · 2020年8月8日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

「PPT」深度学习中的不确定性估计

「PPT」深度学习中的不确定性估计

专知

27+阅读 · 2019年7月20日

使用 Canal 实现数据异构

使用 Canal 实现数据异构

性能与架构

20+阅读 · 2019年3月4日

KDD 18 & AAAI 19 | 异构信息网络表示学习论文解读

KDD 18 & AAAI 19 | 异构信息网络表示学习论文解读

PaperWeekly

21+阅读 · 2019年2月25日

网络表示学习介绍

网络表示学习介绍

人工智能前沿讲习班

18+阅读 · 2018年11月26日

基于区分型码本的图像表示的研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

视觉信息的局部特征表示及应用研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于渐进结构化学习的高维信息稀疏表示理论与技术

国家自然科学基金

0+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

17+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

谱聚类在多个网络模块识别中的推广及在生物网络中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

高维混合数据异常知识发现的粒计算模型关键问题研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于图像特征的接收函数各向异性反演研究

国家自然科学基金

0+阅读 · 2014年12月31日

Structured Credal Learning

Arxiv

0+阅读 · 3月14日

Spectral Graph Filtering for Modality-Specific Representation Learning

Arxiv

0+阅读 · 3月10日

Learning Clinical Representations Under Systematic Distribution Shift

Arxiv

0+阅读 · 3月7日

Transfer Learning with Network Embeddings under Structured Missingness

Arxiv

0+阅读 · 2月23日

CLCR: Cross-Level Semantic Collaborative Representation for Multimodal Learning

Arxiv

0+阅读 · 2月23日

Orthogonalized Multimodal Contrastive Learning with Asymmetric Masking for Structured Representations

Arxiv

0+阅读 · 2月16日

Towards Uniformity and Alignment for Multimodal Representation Learning

Arxiv

0+阅读 · 2月10日

Two-sample Testing with Block-wise Missingness in Multi-source Data

Arxiv

0+阅读 · 2月9日

Multiview Self-Representation Learning across Heterogeneous Views

Arxiv

0+阅读 · 2月4日

Multimodality Representation Learning: A Survey on Evolution, Pretraining and Its Applications

Arxiv

20+阅读 · 2023年2月1日

VIP会员

文章信息

相关主题

最新内容

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

专知会员服务

10+阅读 · 7月16日

《无人地面战车（UGV）的崛起》报告

《无人地面战车（UGV）的崛起》报告

专知会员服务

6+阅读 · 7月16日

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

专知会员服务

5+阅读 · 7月16日

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

专知会员服务

11+阅读 · 7月16日

美陆军任务式指挥人工智能解决方案

美陆军任务式指挥人工智能解决方案

专知会员服务

10+阅读 · 7月16日

ICML 2026 | 理论级自动形式化：从孤立命题到统一形式化知识库

ICML 2026 | 理论级自动形式化：从孤立命题到统一形式化知识库

专知会员服务

7+阅读 · 7月16日

综述 | 现代智能体自我改进，从模型更新到脚手架演化

综述 | 现代智能体自我改进，从模型更新到脚手架演化

专知会员服务

13+阅读 · 7月16日

美国陆军宣布“项目融合-顶点6”：现代化进程的关键里程碑

美国陆军宣布“项目融合-顶点6”：现代化进程的关键里程碑

专知会员服务

12+阅读 · 7月15日

五角大楼新版反无人机手册：内容解析与战略影响（附手册100页原件）

五角大楼新版反无人机手册：内容解析与战略影响（附手册100页原件）

专知会员服务

15+阅读 · 7月15日

《军事基地能源韧性与经济性权衡评估方法研究》

《军事基地能源韧性与经济性权衡评估方法研究》

专知会员服务

7+阅读 · 7月15日

ACM MM 2026 | UNIT：释放大语言模型在图持续学习中的潜力

ACM MM 2026 | UNIT：释放大语言模型在图持续学习中的潜力

专知会员服务

9+阅读 · 7月15日

综述 | 具身视觉语言导航：系统综述与真实世界评测

综述 | 具身视觉语言导航：系统综述与真实世界评测

专知会员服务

12+阅读 · 7月15日

应对第1、2类无人机威胁的推荐战术、技术与程序

应对第1、2类无人机威胁的推荐战术、技术与程序

专知会员服务

11+阅读 · 7月15日

《反制多无人机集群攻城：序贯斯塔克伯格安全博弈方法研究》59页

《反制多无人机集群攻城：序贯斯塔克伯格安全博弈方法研究》59页

专知会员服务

13+阅读 · 7月15日

博士论文 | 可扩展、自我改进的大语言模型智能体

博士论文 | 可扩展、自我改进的大语言模型智能体

专知会员服务

15+阅读 · 7月14日

相关VIP内容

【剑桥大学博士论文】基于注意力的图表示学习

【剑桥大学博士论文】基于注意力的图表示学习

专知会员服务

25+阅读 · 2025年11月3日

【AAAI2025】利用大型语言模型引导异构图表示学习：一种通用方法

【AAAI2025】利用大型语言模型引导异构图表示学习：一种通用方法

专知会员服务

25+阅读 · 2024年12月12日

【MIT博士论文】异构医疗数据表示学习，193页pdf

【MIT博士论文】异构医疗数据表示学习，193页pdf

专知会员服务

61+阅读 · 2022年9月3日

【ICML2022】几何多模态对比表示学习

【ICML2022】几何多模态对比表示学习

专知会员服务

45+阅读 · 2022年7月17日

【AAAI2022】不确定性感知的多视角表示学习

【AAAI2022】不确定性感知的多视角表示学习

专知会员服务

47+阅读 · 2022年1月25日

异质网络表示学习综述论文

专知会员服务

38+阅读 · 2021年8月2日

异质信息网络分析与应用综述，软件学报-北京邮电大学

异质信息网络分析与应用综述，软件学报-北京邮电大学

专知会员服务

64+阅读 · 2020年7月9日

【国防科大】复杂异构数据的表征学习综述

【国防科大】复杂异构数据的表征学习综述

专知会员服务

86+阅读 · 2020年4月23日

【CVPR2020-亚马逊】后向兼容表示学习，BackwardCompatible RepresentationLearning

【CVPR2020-亚马逊】后向兼容表示学习，BackwardCompatible RepresentationLearning

专知会员服务

13+阅读 · 2020年3月27日

异质信息网络的表示学习与应用，北京邮电大学计算机学院石川教授，SMP 2019 前沿技术讲习班第十五期（CIPS ATT 15）

异质信息网络的表示学习与应用，北京邮电大学计算机学院石川教授，SMP 2019 前沿技术讲习班第十五期（CIPS ATT 15）

专知会员服务

28+阅读 · 2019年10月23日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人地面战车（UGV）的崛起》报告

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

相关资讯

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

专知

11+阅读 · 2022年12月1日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

华为分享异质图表示学习（异质图神经网络）

华为分享异质图表示学习（异质图神经网络）

图与推荐

14+阅读 · 2020年9月10日

综述 | 异质信息网络分析与应用综述

综述 | 异质信息网络分析与应用综述

专知

27+阅读 · 2020年8月8日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

「PPT」深度学习中的不确定性估计

「PPT」深度学习中的不确定性估计

专知

27+阅读 · 2019年7月20日

使用 Canal 实现数据异构

使用 Canal 实现数据异构

性能与架构

20+阅读 · 2019年3月4日

KDD 18 & AAAI 19 | 异构信息网络表示学习论文解读

KDD 18 & AAAI 19 | 异构信息网络表示学习论文解读

PaperWeekly

21+阅读 · 2019年2月25日

网络表示学习介绍

网络表示学习介绍

人工智能前沿讲习班

18+阅读 · 2018年11月26日

相关论文

Structured Credal Learning

Arxiv

0+阅读 · 3月14日

Spectral Graph Filtering for Modality-Specific Representation Learning

Arxiv

0+阅读 · 3月10日

Learning Clinical Representations Under Systematic Distribution Shift

Arxiv

0+阅读 · 3月7日

Transfer Learning with Network Embeddings under Structured Missingness

Arxiv

0+阅读 · 2月23日

CLCR: Cross-Level Semantic Collaborative Representation for Multimodal Learning

Arxiv

0+阅读 · 2月23日

Orthogonalized Multimodal Contrastive Learning with Asymmetric Masking for Structured Representations

Arxiv

0+阅读 · 2月16日

Towards Uniformity and Alignment for Multimodal Representation Learning

Arxiv

0+阅读 · 2月10日

Two-sample Testing with Block-wise Missingness in Multi-source Data

Arxiv

0+阅读 · 2月9日

Multiview Self-Representation Learning across Heterogeneous Views

Arxiv

0+阅读 · 2月4日

Multimodality Representation Learning: A Survey on Evolution, Pretraining and Its Applications

Arxiv

20+阅读 · 2023年2月1日

相关基金

基于区分型码本的图像表示的研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

视觉信息的局部特征表示及应用研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于渐进结构化学习的高维信息稀疏表示理论与技术

国家自然科学基金

0+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

17+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

谱聚类在多个网络模块识别中的推广及在生物网络中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

高维混合数据异常知识发现的粒计算模型关键问题研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于图像特征的接收函数各向异性反演研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员