Multi-modal fusion methods often suffer from two types of representation collapse: feature collapse where individual dimensions lose their discriminative power (as measured by eigenspectra), and modality collapse where one dominant modality overwhelms the other. Applications like human action anticipation that require fusing multifarious sensor data are hindered by both feature and modality collapse. However, existing methods attempt to counter feature collapse and modality collapse separately. This is because there is no unifying framework that efficiently addresses feature and modality collapse in conjunction. In this paper, we posit the utility of effective rank as an informative measure that can be utilized to quantify and counter both the representation collapses. We propose \textit{Rank-enhancing Token Fuser}, a theoretically grounded fusion framework that selectively blends less informative features from one modality with complementary features from another modality. We show that our method increases the effective rank of the fused representation. To address modality collapse, we evaluate modality combinations that mutually increase each others' effective rank. We show that depth maintains representational balance when fused with RGB, avoiding modality collapse. We validate our method on action anticipation, where we present \texttt{R3D}, a depth-informed fusion framework. Extensive experiments on NTURGBD, UTKinect, and DARai demonstrate that our approach significantly outperforms prior state-of-the-art methods by up to 3.74\%. Our code is available at: \href{https://github.com/olivesgatech/R3D}{https://github.com/olivesgatech/R3D}.


翻译:多模态融合方法常遭受两类表示坍缩:特征坍缩(即单个维度丧失其判别能力,可通过特征谱衡量)和模态坍缩(即某一主导模态压倒其他模态)。需要融合多种传感器数据的人类行为预测等应用同时受到特征坍缩和模态坍缩的阻碍。然而,现有方法试图分别应对特征坍缩和模态坍缩。这是因为缺乏一个能有效协同解决特征坍缩和模态坍缩的统一框架。本文提出将有效秩作为一种信息性度量,可用于量化并应对两类表示坍缩。我们提出\textit{秩增强令牌融合器},这是一个基于理论的融合框架,能有选择地将一个模态中信息量较低的特征与另一模态的互补特征进行融合。我们证明该方法能提升融合表示的有效秩。针对模态坍缩,我们评估了能相互提升彼此有效秩的模态组合。研究表明深度信息与RGB融合时能保持表示平衡,避免模态坍缩。我们在行为预测任务上验证了所提方法,并提出了\texttt{R3D}——一个融合深度信息的框架。在NTURGBD、UTKinect和DARai数据集上的大量实验表明,我们的方法以最高3.74\%的显著优势超越现有最先进方法。代码发布于:\href{https://github.com/olivesgatech/R3D}{https://github.com/olivesgatech/R3D}。

0
下载
关闭预览

相关内容

【ICML2025】多模态表示坍塌的深度剖析
专知会员服务
15+阅读 · 2025年5月30日
《多模态对齐与融合》综述
专知会员服务
99+阅读 · 2024年11月27日
深度多模态数据融合
专知会员服务
55+阅读 · 2024年11月9日
低质量数据的多模态融合综述
专知会员服务
59+阅读 · 2024年5月4日
专知会员服务
64+阅读 · 2021年10月14日
最新《深度多模态数据分析》综述论文,26页pdf
专知会员服务
302+阅读 · 2020年6月16日
数据受限条件下的多模态处理技术综述
专知
22+阅读 · 2022年7月16日
多模态情绪识别研究综述
专知
25+阅读 · 2020年12月21日
深度多模态表示学习综述论文,22页pdf
专知
33+阅读 · 2020年6月21日
专家报告|深度学习+图像多模态融合
中国图象图形学报
12+阅读 · 2019年10月23日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
26+阅读 · 2019年9月9日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Arxiv
14+阅读 · 2023年9月27日
VIP会员
最新内容
《新兴技术武器化及其对全球风险的影响》
专知会员服务
7+阅读 · 4月29日
《帕兰泰尔平台介绍:信息分析平台》
专知会员服务
17+阅读 · 4月29日
智能体化世界建模:基础、能力、规律及展望
专知会员服务
11+阅读 · 4月28日
美海警海上态势感知无人系统
专知会员服务
6+阅读 · 4月28日
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员