Multimodal multiview learning seeks to integrate information from diverse sources to enhance task performance. Existing approaches often struggle with flexible view configurations, including arbitrary view combinations, numbers of views, and heterogeneous modalities. Focusing on the context of human activity recognition, we propose RALIS, a model that combines multiview contrastive learning with a mixture-of-experts module to support arbitrary view availability during both training and inference. Instead of trying to reconstruct missing views, an adjusted center contrastive loss is used for self-supervised representation learning and view alignment, mitigating the impact of missing views on multiview fusion. This loss formulation allows for the integration of view weights to account for view quality. Additionally, it reduces computational complexity from $O(V^2)$ to $O(V)$, where $V$ is the number of views. To address residual discrepancies not captured by contrastive learning, we employ a mixture-of-experts module with a specialized load balancing strategy, tasked with adapting to arbitrary view combinations. We highlight the geometric relationship among components in our model and how they combine well in the latent space. RALIS is validated on four datasets encompassing inertial and human pose modalities, with the number of views ranging from three to nine, demonstrating its performance and flexibility.


翻译:多模态多视角学习旨在整合来自不同来源的信息以提升任务性能。现有方法通常难以处理灵活的视角配置,包括任意的视角组合、视角数量以及异构模态。聚焦于人类活动识别场景,我们提出了RALIS模型,该模型结合了多视角对比学习与专家混合模块,以支持训练和推理过程中任意视角的可用性。不同于尝试重建缺失视角,我们采用调整后的中心对比损失进行自监督表示学习与视角对齐,从而减轻缺失视角对多视角融合的影响。该损失函数允许集成视角权重以考量视角质量。此外,它将计算复杂度从$O(V^2)$降低至$O(V)$,其中$V$为视角数量。为处理对比学习未能捕获的残余差异,我们采用带有专用负载均衡策略的专家混合模块,其任务为适应任意的视角组合。我们强调了模型中各组件间的几何关系及其在潜在空间中如何良好结合。RALIS在包含惯性与人体姿态模态的四个数据集上进行了验证,视角数量从三到九不等,结果证明了其性能与灵活性。

0
下载
关闭预览

相关内容

【CMU博士论文】迈向数据高效的多模态学习
专知会员服务
21+阅读 · 1月17日
《多模态对齐与融合》综述
专知会员服务
99+阅读 · 2024年11月27日
深度多模态数据融合
专知会员服务
55+阅读 · 2024年11月9日
【CVPR2023】带缺失模态多模态提示的视觉识别
专知会员服务
23+阅读 · 2023年3月10日
视觉语言多模态预训练综述
专知会员服务
122+阅读 · 2022年7月11日
【Paul Liang】多模态深度学习,Multimodal Deep Learning
专知会员服务
185+阅读 · 2022年4月12日
深度多模态表示学习综述论文,22页pdf
专知
33+阅读 · 2020年6月21日
多模态深度学习综述,18页pdf
专知
51+阅读 · 2020年3月29日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员