Redundancy-Free View Alignment for Multimodal Human Activity Recognition with Arbitrarily Missing Views - 专知论文

会员服务 ·

0

多视角 · 模态 · 多模 · 活动识别 · 识别 ·

Redundancy-Free View Alignment for Multimodal Human Activity Recognition with Arbitrarily Missing Views

翻译：基于冗余消除的多视角对齐方法：支持任意缺失视角的多模态人类活动识别

Duc-Anh Nguyen,Nhien-An Le-Khac

Multimodal multiview learning seeks to integrate information from diverse sources to enhance task performance. Existing approaches often struggle with flexible view configurations, including arbitrary view combinations, numbers of views, and heterogeneous modalities. Focusing on the context of human activity recognition, we propose RALIS, a model that combines multiview contrastive learning with a mixture-of-experts module to support arbitrary view availability during both training and inference. Instead of trying to reconstruct missing views, an adjusted center contrastive loss is used for self-supervised representation learning and view alignment, mitigating the impact of missing views on multiview fusion. This loss formulation allows for the integration of view weights to account for view quality. Additionally, it reduces computational complexity from $O(V^2)$ to $O(V)$, where $V$ is the number of views. To address residual discrepancies not captured by contrastive learning, we employ a mixture-of-experts module with a specialized load balancing strategy, tasked with adapting to arbitrary view combinations. We highlight the geometric relationship among components in our model and how they combine well in the latent space. RALIS is validated on four datasets encompassing inertial and human pose modalities, with the number of views ranging from three to nine, demonstrating its performance and flexibility.

翻译：多模态多视角学习旨在整合来自不同来源的信息以提升任务性能。现有方法通常难以处理灵活的视角配置，包括任意的视角组合、视角数量以及异构模态。聚焦于人类活动识别场景，我们提出了RALIS模型，该模型结合了多视角对比学习与专家混合模块，以支持训练和推理过程中任意视角的可用性。不同于尝试重建缺失视角，我们采用调整后的中心对比损失进行自监督表示学习与视角对齐，从而减轻缺失视角对多视角融合的影响。该损失函数允许集成视角权重以考量视角质量。此外，它将计算复杂度从$O(V^2)$降低至$O(V)$，其中$V$为视角数量。为处理对比学习未能捕获的残余差异，我们采用带有专用负载均衡策略的专家混合模块，其任务为适应任意的视角组合。我们强调了模型中各组件间的几何关系及其在潜在空间中如何良好结合。RALIS在包含惯性与人体姿态模态的四个数据集上进行了验证，视角数量从三到九不等，结果证明了其性能与灵活性。

0

相关内容

多视角

【CMU博士论文】迈向数据高效的多模态学习

【CMU博士论文】迈向数据高效的多模态学习

专知会员服务

25+阅读 · 1月17日

《多模态对齐与融合》综述

《多模态对齐与融合》综述

专知会员服务

99+阅读 · 2024年11月27日

深度多模态数据融合

深度多模态数据融合

专知会员服务

55+阅读 · 2024年11月9日

大模型如何多模态偏好对齐？最新《基于人类反馈的语言、语音和视觉任务偏好优化》综述

大模型如何多模态偏好对齐？最新《基于人类反馈的语言、语音和视觉任务偏好优化》综述

专知会员服务

29+阅读 · 2024年9月22日

【CMU博士论文】多模态学习的对齐性、鲁棒性和泛化性，220页pdf

【CMU博士论文】多模态学习的对齐性、鲁棒性和泛化性，220页pdf

专知会员服务

46+阅读 · 2024年6月7日

【CVPR2023】带缺失模态多模态提示的视觉识别

【CVPR2023】带缺失模态多模态提示的视觉识别

专知会员服务

23+阅读 · 2023年3月10日

多模态数据如何学习？UIC最新《视觉+X:数据视角下的多模态学习》研究综述，21页pdf涵盖269篇文献详述多模态机器学习进展

多模态数据如何学习？UIC最新《视觉+X:数据视角下的多模态学习》研究综述，21页pdf涵盖269篇文献详述多模态机器学习进展

专知会员服务

71+阅读 · 2022年10月9日

视觉语言多模态预训练综述

视觉语言多模态预训练综述

专知会员服务

122+阅读 · 2022年7月11日

【Paul Liang】多模态深度学习，Multimodal Deep Learning

【Paul Liang】多模态深度学习，Multimodal Deep Learning

专知会员服务

186+阅读 · 2022年4月12日

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

专知会员服务

27+阅读 · 2022年3月22日

【CVPR2023】探索和利用不确定性的不完整多视角分类

【CVPR2023】探索和利用不确定性的不完整多视角分类

专知

42+阅读 · 2023年4月13日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

33+阅读 · 2022年10月17日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

多模态深度学习综述，18页pdf

多模态深度学习综述，18页pdf

专知

51+阅读 · 2020年3月29日

【综述】深度学习在视频多目标跟踪上的应用

【综述】深度学习在视频多目标跟踪上的应用

专知

14+阅读 · 2019年8月8日

CVPR 2019 | 基于密集语义对齐的行人重识别模型：有效解决语义不对齐

CVPR 2019 | 基于密集语义对齐的行人重识别模型：有效解决语义不对齐

微软研究院AI头条

10+阅读 · 2019年7月5日

计算机视觉方向简介 | 基于自然语言的跨模态行人re-id的SOTA方法（上）

计算机视觉方向简介 | 基于自然语言的跨模态行人re-id的SOTA方法（上）

计算机视觉life

12+阅读 · 2019年6月29日

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

雷锋网

13+阅读 · 2019年3月26日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

基于时空模式的复杂行为识别方法研究

国家自然科学基金

2+阅读 · 2017年12月31日

模拟人眼视觉特性的高性能矢量多边形叠加分析算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

14+阅读 · 2015年12月31日

彩色/多光谱异源双目视频运动目标分割方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于对象模型与多点空间统计的高分辨率遥感影像分类策略

国家自然科学基金

4+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

基于改进型视觉注意模型的多模态极相似图像检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于多视图协同训练的高光谱遥感影像分类

国家自然科学基金

3+阅读 · 2014年12月31日

基于稀疏表示的多摄像机非重叠视野域运动目标跟踪方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

CLEAR: Null-Space Projection for Cross-Modal De-Redundancy in Multimodal Recommendation

Arxiv

0+阅读 · 3月2日

Align and Adapt: Multimodal Multiview Human Activity Recognition under Arbitrary View Combinations

Align and Adapt: Multimodal Multiview Human Activity Recognition under Arbitrary View Combinations

Arxiv

0+阅读 · 2月18日

Orthogonalized Multimodal Contrastive Learning with Asymmetric Masking for Structured Representations

Arxiv

0+阅读 · 2月16日

Orthogonal Disentanglement with Projected Feature Alignment for Multimodal Emotion Recognition in Conversation

Arxiv

0+阅读 · 2月11日

From Correspondence to Actions: Human-Like Multi-Image Spatial Reasoning in Multi-modal Large Language Models

Arxiv

0+阅读 · 2月10日

Redundancy-Free View Alignment for Multimodal Human Activity Recognition with Arbitrarily Missing Views

Arxiv

0+阅读 · 2月9日

From Correspondence to Actions: Human-Like Multi-Image Spatial Reasoning in Multi-modal Large Language Models

Arxiv

0+阅读 · 2月9日

Trace-Focused Diffusion Policy for Multi-Modal Action Disambiguation in Long-Horizon Robotic Manipulation

Arxiv

0+阅读 · 2月7日

CMD-HAR: Cross-Modal Disentanglement for Wearable Human Activity Recognition

Arxiv

0+阅读 · 2月5日

Vision-aligned Latent Reasoning for Multi-modal Large Language Model

Arxiv

0+阅读 · 2月4日

VIP会员

文章信息

相关主题

最新内容

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

4+阅读 · 今天2:06

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

4+阅读 · 今天1:37

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

3+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

3+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

4+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

6+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

6+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

3+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

4+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

5+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

4+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

3+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

多模态代码智能综述：从视觉输入到可执行代码系统

多模态代码智能综述：从视觉输入到可执行代码系统

专知会员服务

8+阅读 · 6月16日

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

专知会员服务

6+阅读 · 6月16日

相关VIP内容

【CMU博士论文】迈向数据高效的多模态学习

【CMU博士论文】迈向数据高效的多模态学习

专知会员服务

25+阅读 · 1月17日

《多模态对齐与融合》综述

《多模态对齐与融合》综述

专知会员服务

99+阅读 · 2024年11月27日

深度多模态数据融合

深度多模态数据融合

专知会员服务

55+阅读 · 2024年11月9日

大模型如何多模态偏好对齐？最新《基于人类反馈的语言、语音和视觉任务偏好优化》综述

大模型如何多模态偏好对齐？最新《基于人类反馈的语言、语音和视觉任务偏好优化》综述

专知会员服务

29+阅读 · 2024年9月22日

【CMU博士论文】多模态学习的对齐性、鲁棒性和泛化性，220页pdf

【CMU博士论文】多模态学习的对齐性、鲁棒性和泛化性，220页pdf

专知会员服务

46+阅读 · 2024年6月7日

【CVPR2023】带缺失模态多模态提示的视觉识别

【CVPR2023】带缺失模态多模态提示的视觉识别

专知会员服务

23+阅读 · 2023年3月10日

多模态数据如何学习？UIC最新《视觉+X:数据视角下的多模态学习》研究综述，21页pdf涵盖269篇文献详述多模态机器学习进展

多模态数据如何学习？UIC最新《视觉+X:数据视角下的多模态学习》研究综述，21页pdf涵盖269篇文献详述多模态机器学习进展

专知会员服务

71+阅读 · 2022年10月9日

视觉语言多模态预训练综述

视觉语言多模态预训练综述

专知会员服务

122+阅读 · 2022年7月11日

【Paul Liang】多模态深度学习，Multimodal Deep Learning

【Paul Liang】多模态深度学习，Multimodal Deep Learning

专知会员服务

186+阅读 · 2022年4月12日

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

专知会员服务

27+阅读 · 2022年3月22日

热门VIP内容

开通专知VIP会员享更多权益服务

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

相关资讯

【CVPR2023】探索和利用不确定性的不完整多视角分类

【CVPR2023】探索和利用不确定性的不完整多视角分类

专知

42+阅读 · 2023年4月13日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

33+阅读 · 2022年10月17日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

多模态深度学习综述，18页pdf

多模态深度学习综述，18页pdf

专知

51+阅读 · 2020年3月29日

【综述】深度学习在视频多目标跟踪上的应用

【综述】深度学习在视频多目标跟踪上的应用

专知

14+阅读 · 2019年8月8日

CVPR 2019 | 基于密集语义对齐的行人重识别模型：有效解决语义不对齐

CVPR 2019 | 基于密集语义对齐的行人重识别模型：有效解决语义不对齐

微软研究院AI头条

10+阅读 · 2019年7月5日

计算机视觉方向简介 | 基于自然语言的跨模态行人re-id的SOTA方法（上）

计算机视觉方向简介 | 基于自然语言的跨模态行人re-id的SOTA方法（上）

计算机视觉life

12+阅读 · 2019年6月29日

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

雷锋网

13+阅读 · 2019年3月26日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

相关论文

CLEAR: Null-Space Projection for Cross-Modal De-Redundancy in Multimodal Recommendation

Arxiv

0+阅读 · 3月2日

Align and Adapt: Multimodal Multiview Human Activity Recognition under Arbitrary View Combinations

Align and Adapt: Multimodal Multiview Human Activity Recognition under Arbitrary View Combinations

Arxiv

0+阅读 · 2月18日

Orthogonalized Multimodal Contrastive Learning with Asymmetric Masking for Structured Representations

Arxiv

0+阅读 · 2月16日

Orthogonal Disentanglement with Projected Feature Alignment for Multimodal Emotion Recognition in Conversation

Arxiv

0+阅读 · 2月11日

From Correspondence to Actions: Human-Like Multi-Image Spatial Reasoning in Multi-modal Large Language Models

Arxiv

0+阅读 · 2月10日

Redundancy-Free View Alignment for Multimodal Human Activity Recognition with Arbitrarily Missing Views

Arxiv

0+阅读 · 2月9日

From Correspondence to Actions: Human-Like Multi-Image Spatial Reasoning in Multi-modal Large Language Models

Arxiv

0+阅读 · 2月9日

Trace-Focused Diffusion Policy for Multi-Modal Action Disambiguation in Long-Horizon Robotic Manipulation

Arxiv

0+阅读 · 2月7日

CMD-HAR: Cross-Modal Disentanglement for Wearable Human Activity Recognition

Arxiv

0+阅读 · 2月5日

Vision-aligned Latent Reasoning for Multi-modal Large Language Model

Arxiv

0+阅读 · 2月4日

相关基金

基于时空模式的复杂行为识别方法研究

国家自然科学基金

2+阅读 · 2017年12月31日

模拟人眼视觉特性的高性能矢量多边形叠加分析算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

14+阅读 · 2015年12月31日

彩色/多光谱异源双目视频运动目标分割方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于对象模型与多点空间统计的高分辨率遥感影像分类策略

国家自然科学基金

4+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

基于改进型视觉注意模型的多模态极相似图像检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于多视图协同训练的高光谱遥感影像分类

国家自然科学基金

3+阅读 · 2014年12月31日

基于稀疏表示的多摄像机非重叠视野域运动目标跟踪方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员